第二十七章 统计学
统计学萌芽于欧洲16世纪伽利略Galileo Galilei为解答赌徒们的问题,󰄁出了概率论的基
本原理17世纪中叶,帕斯卡Blaise Pascal
和费马Pierre de Fermat“得题”论,
奠定了概率论Probability Theor y )的17世纪末18世纪初统计学开始蓬勃发展19世纪
末, 西·Francis Galton和统计学家卡尔
·皮尔逊Karl Pearson的突出贡献描述统计学Descriptive Statistics)正式诞生推论统计学
Inferential Statistics)是研究如何根据样本数据去推断总体统计特征,先驱人物是英国统计学家
威廉·格赛特William Sealy Gosset和罗纳德·费舍尔Ronald Aylmer Fisher。最
于教育与心理方面研究的是高尔顿,而对教育统计做出重要贡献的是心理学家查尔斯·爱德华·
斯皮尔曼Charles Edward Spearman
)!*+",$%"&'#(
27.1 概率论基础
概率论与数理统计(Probability and Mathematical Statistics)研究的对象是随机现在一
定的条件下,并不总是出现相同结果的现象称为随机现象随机现象的结果不止一个,并且人们事
先并不知道哪个结果出现如果只有一个结果,那么该现象称为确定性现象在相同条件下可以重
复的随机现象又称作随机试验Random Trial), 如 抛 骰 子 试 验 界 中
多无法重复的随机现象,比如󰔁场球赛的输赢󰔁个时段的经济增长速度等
随机现象的一切可能的基本结果组成的集合称作样本空间Sample Space), = {ω}
其中ω表示基本结果,又称为样本点,也是抽样时的基本单元样本空间至少有两个样本点,只含
布莱斯·帕斯卡Blaise Pascal1623 1662)是法国物理学家哲学家和神学家,还是一位伟大的数学家和统计学家,他唯一留给世
人的是载录其理论思想的《思想录》,虽未形成系统的理论框架,仍然具有重要的参考价值他曾经󰄁出了一个著名的赌注,深刻影响了
概率策论的诞生,并进存在主用主意志论发展,后称之为“帕斯卡赌注”Pascal’s Wager): 上 帝 要 么 存 在 ,
要么不存在如果你相信上帝的存在,那么最坏的可能就是上帝本不存在,则在死后进入虚无世界,你没有任何损失;若上帝确实存在,
那么你将获得永生如果你拒绝信仰,则最好的结果就是虚无,但最坏的结果就是承受永世的地狱之苦一个理性的人,就应该相信上帝
的存在
341
搜索与排名 Searching and Ranking
!"#
有两个样本点的样本空间是最简单的样本空间如果样本点的数目有限或可数,则称该样本空间为
离散样本空间;如果样本点的数目不可数,则称该样本空间是连续样本空间
随机现象的󰔁些样本点组成的集合称作随机事件,简称事件。样的最大子集(即
身)称作必然事件最小子集(即空)称作不可能事件。用
机变量
27.1. 骰子(亦作色子)是一种古老的赌具,多为正立方体六面骰,各面刻有一至六个点数,
且彼此相对的两面数字之和为七骰子最早出现在两千年前的埃及,古埃及人称其“astragal”。
中国,相传骰子是由三国时的文学家曹植所发明,最初用作占卜工具,后来演变成后宫嫔妃的游
戏,根据掷骰子的点数赌酒或赌丝绸香袋等物当时骰子的点穴上涂的是黑色,唐代时增加描红
赌场内的荷官摇掷骰子透过骰子的点数定输赢每一场赌局投掷骰子的点数都可能不
同。 X,所有可能的投掷结果构成样本空
= {1, 2, 3, 4, 5, 6}“投掷的骰子点数大于4”的事件可以使用“X>4”表示
随机事件的不同结果的发生存在不同程度的可能性,有些结果可能性大有些可能性小
率论最基本的一个问题是定义随机事件的概率,以刻画事件发生的可能性16世纪,意大利学
Gerolamo Cardano
开始研究赌博游戏中的一些简单问题,其死后发表的《论赌博游戏》Liber
de ludo aleae)给出了一些概率论的基本概念和定被认为是第一部概率论著作Cardano
后约三百年的时间里Blaise PascalPierre de Fermat Jacob Bernoulli等数学家都在古典概率
计算公式推导和扩大应用等方面做了重要的工作1812年,学家Pierre-Simon Laplace
《概论》Th
´
eorie analytique des probabilit
´
es义:A的概率等
于一次试验中出现事件A的可能结果数目与该事件中所有可能结果数目之比古典定义通过简单
明了的方式定义了事件的概率,并给出简单可行的方法古典定义是在经验事实的基础上,对
个:(甲)随
事件结果数有限;(乙)每个结的出有同 Jacob Bernoulli在研究古典概率时发
Bernoulli大数定律,即“频率具有稳定性”,从而可以“用频率估计概率”
概率论发展的历史,诞生过概率的古典定义概率的几何定义概率的频率定义和概率的主观
定义1900年,38岁的德国数学家David Hilbert在世界数学家大会上󰄁出建立概率公理系统的问
题,Hilbert 23个问题中的第6个问题20世纪初完成的勒贝格测度与积分理论,以
及随后发展的抽象测度和积分理论,为概率论公理体系的建立奠定了基础1933年,前苏
Andrey Kolmogorov[349]运用集合论和测度论正式给出概率严密的公理化定义,既概括了古典
Gerolamo Cardano15011576), 大 利 学 家 、 家 、 学 家 计 学 1526年获帕维亚大学医学博士学位,后成为
欧洲名医,曾任英国国王爱德华六世的御医,并曾任教于帕维亚大学博洛尼亚大学他学识渊博,一生写作出版各类文章书籍200
种,被誉为百科全书式的学者他的家庭生活非常不幸 最喜爱的大儿子詹巴蒂斯塔因杀死不忠的妻子于1560年被判死刑他的女儿沦
为妓女,死于梅毒他的另一个儿子是个赌徒,经常偷窃他的财物他自己因为推算耶稣的出生星位,被指控为大逆不道,于1570年入
狱,并失去教职更为可悲的是,他的儿子参与了指控出狱后他移居罗马,获得了教皇格里高利十三世(Pope Gregory XIII)的年金资
助,完成了自己的自传据说,他七十一岁时通过占星术推算出自己将在1576 921 日去世,但是到那一天时,他活得像头壮牛;为了
保全自己大星象学家的名声,他自杀了
$%"&'#(
342
)!*+",$
27.1. 概率论基础
!"#
定义统计定义的基本特性,又避免了各自的局限概率论公理体系的出现是概率论发展史上的一
个里程碑,至此概率论才真正成为严格的一个数学分支
定义27.1 (σ-代数与可测空间). 假设是一个样本空间F 的某些子集所构成的集合类
Collection如果F 满足:
F
余集集封封闭闭:如果A F ,则
¯
A = \ A F
可列列并并封封闭闭:如果A
n
F n =1, 2,...,则
P
n=1
A
n
F
则称F σ-代数数(Sigma-Algebra)、 Borel域域域 Borel Field)或事事件件域域(Field of Events), ( , F )称作
可测测空空间间(Measurable Space)。
根据定义可以推知:
F
差集封闭:如果A, B F ,则A \ B F
有限交有限并可列交封闭:如果A
n
F n =1, 2,...,则
n
N
i=1
A
n
,
n
P
i=1
A
n
,
N
n=1
A
n
F
定义27.2 (概率与概率空间). 假设(, F )是可测空间,P (·)是定义在F 上的实值函数,如果满足:
非负负性性公公理理:对任意的A F 都有0 P (A) 1
正则则性性公公理理:P ()=1
可列列可可加加性性公公理理:对于两两互不相容事件A
1
,A
2
,...A
i
A
j
= i ̸= j)有:
P (
B
i=1
A
i
)=
"
i=1
P (A
i
),
则称P (·)是可测空间(, F )上的概概率率(Probability), P (A)为事件A的概率(, F ,P)称作概概率率空
间间间 Probability Space)。
根据定义可以推知:
可减性:如果A, B F A B,则P (B \ A)=P (B) P (A)
如果事件列{A
n
,n 1}满足A
n
A
n+1
,则,有 lim
n→∞
A
n
=
P
i=1
A
i
;如
{A
n
,n 1}满足A
n
A
n+1
,则称作单减增列,有 lim
n→∞
A
n
=
N
i=1
A
i
概率连续性:如果事件列{A
n
,n 1}是单调减列或单调增列,则
lim
n→∞
P (A
n
)=P (lim
n→∞
A
n
).
$%"&'#(
343
)!*+",$
搜索与排名 Searching and Ranking
!"#
概率的解释与定义在争议中不断向前发展,从概率的公理化定义刻画了概率的本质,但是没有
明确指出具体地确定概率的方法在公理化定义之前的概率的频率定义古典定义几何定义和主
观定义都在一定场合下,存在各自确定概率的方法在公理化定义范畴下,一一对应确定概率的频
率方法古典方法几何方法和主观方法
定义27.3 (条件概率). 假设(, F ,P)是概率空间B F ,且P (B) > 0,如果对任意的A F ,记
P (A|B)=
P (AB)
P (B)
,
则称P (A|B) 为事件B发生的条件下,事件A发生的条条件件概概率率(Conditional Probability)。
由条件概率的定义可知:
乘法公式:设A, B F ,则有P (AB)=P (A|B)P (B)一般地,如果A
i
F ,i =1, 2,...,n
P (A
1
A
2
···A
n
) > 0,则有
P (A
1
A
2
···A
n
)=P (A
1
)P (A
2
|A
1
)P (A
3
|A
1
A
2
) ···P (A
n
|A
1
A
2
···A
n1
).
全概率公式:设(, F ,P)是概率空间A F B
i
F i =1, 2,...,nB
i
B
j
= (i ̸= j)
n
P
i=1
B
i
= P (B
i
) > 0,则有
P (A)=
n
"
i=1
P (A|B
i
)P (B
i
).
贝叶斯定理
:设(, F ,P) 是概率空间,A F B
i
F i =1, 2,...,nB
i
B
j
= (i ̸=
j),且
n
P
i=1
B
i
= P (B
i
) > 0P (A) > 0,则有
P (B
i
|A)=
P (B
i
)P (A|B
i
)
n
(
i=1
P (A|B
i
)P (B
i
)
.
一般地,若对任意的A
1
,...,A
n
F ,都有P (
n
N
i=1
A
i
)=
n
9
i=1
P (A
i
),则称F 是独立事件簇
定义27.4 (随机变量及其分布函数). 假设(, F ,P)是概率空间X = X(ω)是定义在上的实值函
数。 x R,都有X
1
((−∞,x]) = {ω : X(ω) x} F ,则称X(ω)F 上的随随机机变
量(Random Variable简记作XF (x)=P (X x)=P ({ω : X(ω) x})=P (X
1
((−∞,x]))
作随机变量X的累累积积分分布布函函数数(Cumulative Distribution Function, CDF简称分分布布函函数
根据随机变量的分布函数的定义,我们可以得到下面几条性质:
F (x) 是增函数:当x
1
<x
2
时有F (x
1
) F (x
2
)
Thomas Bayes17011761), 学 家 敬 的 牧 师 成 才 1742 年入选英
国皇家学会会员,1763年在一篇论文中首次󰄁到贝叶斯定理为了证明上帝的存在,他发展了一套成熟的概率方法论他的思想和方法对
概率统计的发展产生了深远的影响,至今在许多领域都还有广泛应用
$%"&'#(
344
)!*+",$
27.1. 概率论基础
!"#
F (−∞)= lim
x→−∞
F (x)=0F (+)= lim
x+
F (x)=1
F (x) 右连续
型: 使概率分
布列或曰概率质量函数Probability Mass Function, PMF)表示:p
k
= P (X = x
k
),k =1, 2,...
其分布函数为F (x)=
(
xx
k
p
k
;连续型随机变量的概率分布用概率密度函数Probability Density
Function, PDFf(x)来󰄀述,其分布函数F (x)=
S
x
−∞
f(t)dt
定义27.5 (多维随机变量及其分布函数). 假设(, F ,P)是概率空间X
i
= X
i
(ω),i =1, 2,...,n
是定义在上的实值函数如果对任意的x
i
R,都有X
1
i
((−∞,x
i
]) = {ω : X
i
(ω) x
i
} F ,则
X(ω)=(X
1
(ω),X
2
(ω),...,X
n
(ω))n维维维 随随随 机机机 变变变 量量量 随随随 机机机 向向向 量量量 X =(X
1
,X
2
,...,X
n
)
F (x
1
,x
2
,...,x
n
)=P (X
1
x
1
,X
2
x
2
,...,X
n
x
n
)称作随机变量X的联联合合分分布布函函数数(Joint
Cumulative Distribution FunctionJCDF)。
对于二维随机变量(X, Y ),其联合分布函数F (x, y)=P (X x, Y y)是事件{X x}与事
{Y y}同时发生的概率
定义27.6 (二维离散随机变量与联合分布列). 如果二维随机变量(X, Y )只取有限个或可数的(x
i
,y
i
)
则称(X, Y )为二维离散随机变量,称
p
ij
= P (X = x
i
,Y = y
i
),i,j=1, 2,...
(X, Y )的联联合合分分布布列列(Joint Probability Mass Function, JPMF)。
定义27.7 (二维连续随机变量与联合密度函数). 如果存在二元非负函数p(x, y),使得二维随机变
(X, Y )的分布函数F (x, y)可表示为
F (x, y)=
>
x
−∞
>
y
−∞
f(u, v)dvdu,
则称(X, Y )为二维随机变量,f (u, v)(X, Y )的联联合合密密度度函函数Joint Probability Density Function,
JPDF)。
定义27.8 (边际概率分布函数). 如果在二维随机变量(X, Y )的联合分布函数F (x, y)中取y +
由于{Y<+}是必然事件,则称
lim
y +
F (x, y)=P (X x, Y +)=P (X x),
X的边边际际概概率率分分布布函函数数(Marginal Distribution Function记为
F
X
(x)=F (x, +).
类似地,F
Y
(y)=F (+,y)称作Y 的边际概率分布函数
$%"&'#(
345
)!*+",$
搜索与排名 Searching and Ranking
!"#
在二维离散随机变量(X, Y )的联合分布列{P (X = x
i
,Y = y
j
)}中,对j求和所得的分布列
"
j=1
P (X = x
i
,Y = y
j
)=P (X = x
i
),i=1, 2,...
称作X的边际概率分布列类似地,对i求和所得的分布列
"
i=1
P (X = x
i
,Y = y
j
)=P (Y = y
j
),j=1, 2,...
称作Y 的边际概率分布列
如果二维连续随机变量(X, Y )的联合概率密度函数为f(x, y),由于
F
X
(x)=F (x, +)=
>
x
−∞
Z
>
+
−∞
f(u, v)dv
[
du !
>
x
−∞
f
X
(u)du,
F
Y
(y)=F (+,y)=
>
y
−∞
Z
>
+
−∞
f(u, v)du
[
dv !
>
y
−∞
f
Y
(v)dv,
其中f
X
(x)f
Y
(y)分别称作X的边际概率密度函数Y 的边际概率密度函数(Marginal Density
Function)。
27.2 随机变量的数字特征
定义27.9 (数学期望). 假设X是定义在概率空间( , F ,P)上的随机变量,如果
S
|X|dP < ,就
X的数数学学期期望望(Expectation)或均值存在,或称X是可积的,记作E(X),并有下列定义:
E(X)=
>
XdP.
如果X是离散型随机变量,如果级数
+
(
i=1
|x
i
|p
i
收敛,则E(X)=
+
(
i=1
x
i
p
i
是随机变量X的数学期望
如果X是连续型随机变量,如果积分
S
+
−∞
|x|f(x)dx收敛,则E(X)=
S
+
−∞
xf(x)dx是随机变量X
数学期望
定义27.10 (条件分布). 对一切使f
Y
(y) > 0y,给定Y = y条件下X的条件分布函数(Conditional
Distribution Function)和条件密度函数(Conditional Density Function)分别为
F (x|y)=
>
x
−∞
f(u, y)
f
Y
(y)
du, (27.1)
f(x|y)=
f(x, y)
f
Y
(y)
=
f
X
(x)f(y|x)
S
+
−∞
f
X
(x)f(y|x)dx
. (27.2)
定义27.11 (条件数学期望). XY 是随机变量,对一切使f
Y
(y) > 0y,给定Y = y条件下X的期
望定义如下:
E(X|Y = y)=
>
+
−∞
xf(x|y)dx.
$%"&'#(
346
)!*+",$
27.2. 随机变量的数字特征
!"#
条件期望E(X|Y = y)y的函数,对y的不同取值,条件期望E(X|Y = y)的取值也在变
化。 g(y)=E(X|Y = y)。我Y 的函数,记
E(X|Y )=g(Y )
定理27.1 (重期望公式). (X, Y )是二维随机变量,且E(X)存在,则E(X)=E(E(X|Y ))
证明: 假设(X, Y )的联合密度函数是f(x, y),由f(x, y)=f (x| y)f
Y
(y)可得:
E(X)=
S
+
−∞
S
+
−∞
xf(x, y)dxdy
=
S
+
−∞
*
S
+
−∞
xf(x|y)dx
+
f
Y
(y)dy
=
S
+
−∞
E(X|Y = y) f
Y
(y)dy
=
S
+
−∞
g(y)f
Y
(y)dy
= E(g(Y )) = E(E(X| Y )).
证毕
我们下面来看条件期望的一些基本性质:
性质27.1 (独立性). 如果XY 是两个独立随机变量,则对于任意使f
Y
(y) > 0y都有
E(X|Y = y)=E(X).
证明: XY 的独立性可知f(x, y)=f
X
(x)f
Y
(y),则f(x|y)=
f(x,y)
f
Y
(y)
= f
X
(x),按照条件期望的
定义则有
E(X|Y = y)=
>
+
−∞
xf(x|y)dx =
>
+
−∞
xf
X
(x)=E(X).
证毕
性质27.2. h是一个实值函数,对于任意使f
Y
(y) > 0y都有E(h(Y )|Y )=h(Y )
证明: 对于任意的y R,如果给定y,则条件概率f(h(Y )=h(y)|Y = y)=1根据定义可知
E(h(Y )|Y = y)=h(y)f(h(Y )=h(y)|Y = y)=h(y),
那么E(h(Y )|Y )=h(Y )
性质27.3 (线性相加性). X
1
X
2
Y 都是随机变量,α
1
, α
2
R,则
E(α
1
X
1
+ α
2
X
2
|Y = y)=α
1
E(X
1
|Y = y)+α
2
E(X
2
|Y = y).
证明: 我们直接按照条件期望的定义推导:
E(α
1
X
1
+ α
2
X
2
|Y = y)=
S
+
−∞
S
+
−∞
α
1
u + α
2
vf(X
1
= u, X
2
= v|Y = y)dudv
= α
1
S
+
−∞
S
+
−∞
uf(X
1
= u, X
2
= v|Y = y)dudv+
α
2
S
+
−∞
S
+
−∞
vf(X
1
= u, X
2
= v|Y = y)dudv
= α
1
S
+
−∞
uf(X
1
= u|Y = y)du + α
2
S
+
−∞
vf(X
2
= v|Y = y)dv
= α
1
E(X
1
|Y = y)+α
2
E(X
2
|Y = y).
证毕
$%"&'#(
347
)!*+",$
搜索与排名 Searching and Ranking
!"#
性质27.4. XY 是随机变量,gh是实值函数,则E[g(X)h(Y )] = E[h(Y )E(g(X)|Y )]
证明: 根据条件期望的定义可以推导:
E[g(X)h(Y )] =
S
+
−∞
S
+
−∞
g(x)h(y)f(x, y)dxdy
=
S
+
−∞
h(y)f
Y
(y)(
S
+
−∞
g(x)f(x|Y = y)dx)dy
=
S
+
−∞
h(y)E(g(X)|Y = y)f
Y
(y)dy
= E[h(Y )E(g(X)|Y )].
证毕
定义27.12 (原点矩和中心矩). 假设g(x)R上的Borel可测函数若其数学期望存在E(|g(x)|) <
则有
E(g(X)) =
>
g(X)dP =
>
+
−∞
g(x)f(x)dx.
如果g(X)=X
k
,k N的数学期望存在,就称
E(X
k
)=
>
+
−∞
x
k
f(x)dx
XK阶原原点点矩矩(K-th Moment about the Origin如果g(X)=|X|
k
,k N的数学期望存在,称
E(|X|
k
)=
>
+
−∞
|x|
k
f(x)dx
XK阶阶阶 绝绝绝 对对对 原原原 点点点 矩矩矩 K-th Absolute Moment about the Origin)。 g( X)=(X E(X))
k
,k
N的数学期望存在,称
E((X E(X))
k
)=
>
+
−∞
(x E(X))
k
f(x)dx
XK阶中中心心矩矩(K-th Central Moment如果g(X)=|X E(X)|
k
,k N的数学期望存在,称
E(|X E(X)|
k
)=
>
+
−∞
|x E(X)|
k
f(x)dx
XK阶绝绝对对中中心心矩矩(K-th Absolute Central Moment)。
定义27.13 (方差). 我们称随机变量X的二二阶阶中中心心矩矩为方方差差(Variance,记作var(X)则有
var(X)=E((X E(X))
2
)=
>
+
−∞
(x E(X))
2
f(x)dx = E(X
2
) (E(X))
2
.
定理27.2. 对于随机变量X,如果对任意的k N都有E(|X|
k
) < ,则对所有的正整i<k
E(|X|
i
) <
证明: 假设随机变量X是连续的,并且其概率密度函数是f(x),则对于i<k
E(|X|
i
)=
S
+
−∞
|x|
i
f(x)dx
=
S
|x|1
|x|
i
f(x)dx +
S
|x|>1
|x|
i
f(x)dx
S
|x|1
f(x)dx +
S
|x|>1
|x|
k
f(x)dx
P (|X| 1) + E(|X|
k
),
根据假设E(|X|
k
) < ,必然有E(|X|
i
) <
$%"&'#(
348
)!*+",$
27.2. 随机变量的数字特征
!"#
由此可知,只要E(X
2
) < ,则变量X的期望和方差都存在
如果我们知道随机变量的分布函数,就可以很容易地计算出随机变量的各种数值特征,如
均值方差和其他各高阶矩通常,计算随机变量的各阶矩,往往要进行求和或积分运算实际
上,量各矩的分或和运算,并建立起阶矩统一 们下
重要具:矩母函数Moment Generating Function)与特征函数Characteristic
Function),
的计算转换成简单的微分计算,甚至可以将随机变量序列的极限分布转换成一般函数极限问题
定义27.14 (矩母函数). X是一个随机变量,函数
ψ(t)=E(e
tX
)=
>
+
−∞
e
tx
f(x)dx, −∞ <t<,
称作X的矩矩母母函函数数(Moment Generating Function, MGF)。
矩母函数ψ(t)对应随机变量X密度函数f(x)拉普拉斯变换Laplace Transformation),
只与随机变量X的分布函数有关,如果随机变量XY 的分布函数相同,则它们的矩母函数
也相同如果随机变量X有界(Bounded), ψ(t)对所有的t都是有限的(Finite)。
则,ψ(t) 可能对于󰔁些t有限,而对其他t却不是有限的唯一可以确定的是当t =0时,
ψ(0) = E(1) = 1 < 。我使ψ(t) 的定义域是一
个含有t =0的开区间,随后介绍的特征函数则在整个实数空间内都有良好的定义
定义27.15 (特征函数). X是一个随机变量,复随机变量e
itX
的期望值
ϕ(t)=E(e
itX
)=
>
+
−∞
e
itx
f(x)dx, −∞ <t<,
称作随机变量X的特特征征函函数数(Characteristic Function,其中i =
1,且有欧欧拉拉公公式
e
itx
= cos(tx)+i sin(tx).
特征函数ϕ(t)对应随机变量X密度函数f(x) 傅里叶变换Fourier Transformation),
ϕ(t)=ψ(it)。由|e
itX
| =1E(e
itX
)总是存在的,任意随机变量的特征函数都存在如果随机
变量X连续,并且其特征函数ϕ(t)绝对可积,则根据反演公式
f(x)=
1
2π
>
+
−∞
e
itx
φ(x)dx,
可以通过傅里叶逆变换解得随机变量X的密度函数f(x)
特征函数ϕ(t)与矩母函数ψ(t)相同,依赖于随机变量的分布,分布相同则特征函数相同矩母
函数相同,为此也常称作󰔁分布的特征函数分布的矩母函数不同之处在于所有分布都存在唯一
的特征函数,但有些分布(如柯西分布对数正态分布)不存在矩母函数
性质27.5. 如果随机变量Y = aX + b,其中a, b都是常数,则有
ψ
Y
(t)=e
bt
ψ
X
(at), ϕ
Y
(t)=e
ibt
ϕ
X
(at).
$%"&'#(
349
)!*+",$
搜索与排名 Searching and Ranking
!"#
证明: 根据定义有
ψ
Y
(t)=E(e
tY
)=E(e
atX
e
bt
)=e
bt
E(e
atX
)=e
bt
ψ
X
(at),
此外,ϕ(t)=ψ(it),则
ϕ
Y
(t)=ψ
Y
(it)=e
ibt
ψ
X
(ait)=e
ibt
ϕ
X
(at),
证毕
性质27.6. 如果X
1
,X
2
,...,X
n
是独立随机变量,它们的矩母函数分别是ψ
1
, ψ
2
,...,ψ
n
,特征函数分
别是ϕ
1
, ϕ
2
,...,ϕ
n
,则随机变量Y =
(
i
X
i
的矩母函数ψ特征函数ϕ
ψ(t)=
!
i
ψ
i
(t), ϕ(t)=
!
i
ϕ
i
(t).
明: X
1
,X
2
,...,X
n
是独立随机变量,对任意的te
tX
1
,e
tX
2
,...,e
tX
n
也是独立随机变量
则有
ψ(t)=E(e
tY
)=E(
!
i
e
tX
i
)=
!
i
E(e
tX
i
)=
!
i
ψ
i
(t).
同理,易证ϕ(t)=
9
i
ϕ
i
(t)
性质27.7. 假设随机变量X的矩母函数是ψ,特征函数是ϕ,如果E(X
n
)存在,则ψ(t)ϕ(t)存在n
导数,且对1 k n,有
ψ
(k)
(0) = E(X
k
), ϕ
(k)
(0) = i
k
E(X
k
).
证明: 由于E(X
n
)存在,则有
>
+
−∞
|x|
n
f(x)dx < ,
于是含参变量t的广义积分ψ(t)ϕ(t)可以对t求导n次,于是对1 k n,都有
ψ
(k)
(t)=
>
+
−∞
x
k
e
tx
f(x)dx = E(X
k
e
tX
), ϕ
(k)
(t)=
>
+
−∞
i
k
x
k
e
tx
f(x)dx = i
k
E(X
k
e
tX
).
t =0时,则有
ψ
(k)
(0) = E(X
k
), ϕ
(k)
(0) = i
k
E(X
k
).
证毕
矩母函数与特征函数的这个性质为我们󰄁供了一条求随机变量各阶矩的途径,比如
E(X)=ψ
(0) =
ϕ
(0)
i
, var(X)=ψ
′′
(0) (ψ
(0))
2
= ϕ
′′
(0) + (ϕ
(0))
2
.
定义27.16 (协方差). (X, Y )是一个二维随机变量,如果E[(X E(X))(Y E(Y ))]存在,则称此
数学期望为XY 的协协方方差差(covariance或称为XY 的相相关关((中中心心))矩矩,并记作
cov(X, Y )=E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y ).
$%"&'#(
350
)!*+",$
27.3. 概率分布
!"#
cov(X, Y ) > (<, =)0时,XY (负 不) XY 相互独立,则E(XY )=
E(X)E(Y ),则XY 不相关:cov(X, Y )=0反之不然。比如,随机变量X N(0, σ
2
)Y = X
2
XY 不独立,但是cov(X, Y )=0
协方差cov(X, Y )是含有量纲的统计量,为了消除量纲的影响,现在对协方差除以相同量纲的
量,可以得到一个新的统计量:相关系数correlation coefficient)。
定义27.17 (相关系数). (X, Y )是一个二维随机变量,且var(X) > 0var(Y ) > 0,则称
corr(X, Y )=
cov(X, Y )
)
var(X)
)
var(Y )
=
cov(X, Y )
σ
X
σ
Y
XY 的线性相关系数,简称相相关关系系数
相关系数corr(X, Y ) [1, 1]刻画了XY 之间的线性关系如果corr ( X, Y )=0时,
XY 不相关,即XY 之间没有线性关系,但两者之间可能存在其他的函数关系,比如平
方关系对数关系指数关系等如果corr(X, Y )=±1时,XY (负)
0 < |corr(X, Y )| < 1,则称XY 之间含有一定程度的线性关系,绝对值越大,则线性相关程度
越高,反之则越低
27.3 概率分布
27.2 (圆周率与统计). 圆周率π是一个数学常数,表示圆周长与其直径的比值它是一个无理数
精确计算它的数值成为古今中外无数数学人的梦想有考古发现一块大约公元前1900 年制造的古
巴比伦石匾上记载了圆周率的数值25/8=3.125。同16/9的平
方,3.16。公800年至600年成文的《百书》Satapatha Brahmana
显示圆周率等于分数339/108,约等于3.139。公2纪,中书《周经》已有“径
一而周三”的记载,圆周率是等于三的常数公元前三世纪,古希腊大数学家阿基米德在《圆的度
量》中通过计算圆的外切和内接正多边形的周长确定圆周率的上下界,从正六边形开始逐渐增加到
96 边形,计算得到223/71 < π < 22/7,开创了人类历史上通过几何算法计算圆周率近似值之先
河。 16等于5/8,圆周率等于10的算术平方根公元约263年,
我国魏晋时期的数学家刘徽发明了“割圆术”“割之弥细,所失弥少,割之又割,以至于不可割,
矣”3,072 边形的面积求得π 3927/1250 = 3.1416
公元约480年,3.1415926和过剩近似
3.1415927,人类历史上首次将圆周率的近似计算精确到小数点7位。 530年,
大师Aryabhata利用384边形的周长,算出圆周率约为
9.8684 14世纪,印度数学家Madhava发现
了反正切级数解析式
arctan x = x
x
3
3
+
x
5
5
x
7
7
+ ···+
(1)
n
x
2n+1
2n +1
+ ··· ,
$%"&'#(
351
)!*+",$
搜索与排名 Searching and Ranking
!"#
x =1时,可以得到π的一个无穷级数(Madhava级数)
π
4
= arctan 1 = 1
1
3
+
1
5
1
7
+ ···+
(1)
n
2n +1
+ ··· ,
通过变换得到如下可以快速收敛的无穷级数
π =
12
+
"
k=0
(3)
k
2k +1
=
12
*
1
1
3 × 3
+
1
5 × 3
2
1
7 × 3
3
+ ···
+
.
他使用前21项计算π精度达到11位的近似值π 3.14159265359 1424年,Jamsh
¯
id
al-K
¯
ash
¯
i通过计算正3 × 2
28
边形的周长,将π的精度提升到小数点后17π 3.14159265358979324
打破祖冲之保持近千年的记录1593年,Franc¸ois Vi
`
ete发现可以收敛到π的无穷连乘积
的形式
2
π
=
2
2
×
)
2+
2
2
×
R
2+
)
2+
2
2
× ··· .
1596年,Ludolph van Ceulen计算得到小数点后20位的圆周率,后来又刷新到小数
点后的35位。 35位圆周率近似值镌刻在他的墓碑上,并被后
人称作Ludolph数。 James Gregory和德国数学家数学家Gottfried Wilhelm Leibniz分别
1671年、 1674 年再次独立发现了Madhava 级数,又称Madhava-Gregory-Leibniz级数1706年,英
国数学家John MachinMadhava-Gregory-Leibniz级数的基础上,提出世界上第一个圆周率快速计算
算法
π
4
= 4 arctan
1
5
arctan
1
239
,
将圆周率的计算推至100位小数的大关1789年,洛文亚数学家Jurij Vega使用Machin公式计算
得到140位小数的近似值,但是只有前126位计算正确1841年,William Rutherford计算得到208
小数的近似值,只有前152位计算正确1873 年,William Shanks通过Machin
式将π的数值计算到小数点后707位,15年的时间1944年,D. F. Ferguson借助
计算器检验发现Shanks的计算结果只有前527位正确1947年,Ivan Morton Niven
π是无理数1948 年,D. F. Ferguson和美国的John Wrench计算到小数点808位,成工计
周率值的最高纪录1949年,第一计算ENIAC诞生,George ReitwiesnerJohn von
Neumann领导的一个小组使用ENIAC,经过70个小时的计算得到2,037位的结果电子计算机的出
现以及高级计算理论的发展,使得π值的计算取得突飞猛进的成果,现在π的计算精度已经达到小
数点后1.33 × 10
13
位。
1909年,
´
Emile Borel首次引入正正规规数Normal Number)的概,给常数
定理
。正
质, π的正规性我们使用1996David H. Bailey Peter
BorweinSimon Plouffe三位科学家提出的BBP公式
π =
"
k=0
T
1
16
k
.
4
8k +1
2
8k +4
1
8k +5
1
8k +6
/
U
,
几乎所有实数都是正常数,非正常数的Lebesgue测度都等于零
$%"&'#(
352
)!*+",$
27.3. 概率分布
!"#
无需计算π值前n位的前提下,直接计算π值第n +1现在我们统计π值前1,000万位小数所含数字
分布状况
,见图27.1(左)
27.1: 圆周率π值前1,000万位小数所含数字统计图(左)数字一阶转移概率矩阵图(右)
目前,我们还无法完全从理论上证明π的正则性,根据统计结果数字基本服从均匀分布
P
i
1
10
=0.1,i =0, 1,...,9,
数值计算几乎可以肯定π就是一个正则数如果将每个数字当作一个状态,我们利用π小数部分相
邻数字建立各状态之间的一一阶阶转转移移概概率率矩矩阵A =(a
ij
)
10×10
,如图27.1(右)
A =
0.0997 0.1001 0.1002 0.0997 0.1003 0.1000 0.0995 0.0996 0.1009 0.0999
0.1005 0.0997 0.0997 0.1003 0.1003 0.0997 0.0997 0.0997 0.1001 0.1001
0.1001 0.1003 0.1000 0.0999 0.1000 0.1000 0.1001 0.1003 0.0997 0.1005
0.1001 0.0998 0.0994 0.1006 0.1001 0.1000 0.1001 0.0997 0.1001 0.1007
0.1003 0.1003 0.1003 0.0998 0.1000 0.1002 0.1004 0.1004 0.1001 0.1000
0.1002 0.1002 0.0999 0.0998 0.1001 0.1005 0.1000 0.1005 0.0996 0.1002
0.0998 0.0996 0.1007 0.1001 0.1005 0.1000 0.1000 0.0997 0.0999 0.0997
0.0994 0.1005 0.1001 0.1005 0.1000 0.1001 0.1001 0.1003 0.0998 0.1000
0.1000 0.0998 0.1003 0.1000 0.1001 0.1004 0.1003 0.1003 0.0998 0.0994
0.0999 0.0997 0.1003 0.0998 0.1004 0.1000 0.0997 0.1003 0.1004 0.1001
转移矩阵的每一项表示一个状态转移概率
P (π
t
= i|π
t+1
= j) 0.1,i,j=0, 1, 2,...,9,
http://pi.karmona.com/
http://piworld.calico.jp/
$%"&'#(
353
)!*+",$
搜索与排名 Searching and Ranking
!"#
每个状态都是近似于随机跳转
定义27.18 (二项分布). 如果记A为一次成功的伯努利实验,p为事件A发生的概率Xn重伯努利
实验中成功的次数,则X的可能取值为0, 1,...,n,随机变量X的分布列为
P (X = k)=
.
n
k
/
p
k
(1 p)
nk
(27.3)
则称X服从二二项项分分布布(Binomial Distribution), X B(n, p)。当n =1时,则X服从两两点点分
布,或称0 1分布布:
P (X = k)=p
k
(1 p)
1k
,k=0, 1 (27.4)
定义27.19 (几何分布). 如果记A为一次成功的伯努利实验,p为事件A发生的概率X为重复伯努利
实验直至事件A发生所需的实验次数,则X的可能取值为1,...,n,随机变量X 的分布列为
P (X = k)=(1 p)
k1
p, k =1, 2,... (27.5)
则称X服从几几何何分分布布(Geometric Distribution,写作X Geo(p)
定理27.3 (几何分布的无记忆性). 假设X Geo(p),则对任意正整数mn,都有
P (X>m+ n|X>m)=P (X>n). (27.6)
定义27.20 (负二项分布). 如果记A为一次成功的伯努利实验,p为事件A发生的概率X为重复伯努
利实验直至事件A出现r次所需的实验次数,则X的可能取值为r, r +1,...,随机变量X 的分布列为
P (X = k)=
.
k 1
r 1
/
p
r
(1 p)
kr
,k= r, r +1,..., (27.7)
则称X服从负负二二项项分分布Negative Binomial Distribution)或Pascal分布布,写作X NB(r, p)。当r =
1时,退化为几何分布
定义27.21 (超几何分布). 假设有N个产品,其中有M个不合格产品如果无放回地从中随机抽
n个,记X为抽取的n个产品中不合格的产品数目,则随机变量X 的分布列为
P (X = k)=
*
M
k
+*
NM
nk
+
*
N
n
+
,k=1, 2,...,r (27.8)
则称X服从超超几几何何分分布Hypergeometric Distribution), X HGeo(n, N, M)其中r =min{M,n}
并满足M Nn Nn, M, N N
+
定义27.22 (泊松分布). 如果随机变量X的分布列为
P (X = k)=
λ
k
k!
e
λ
,k=0, 1,... (27.9)
则称X服从泊泊松松分分布布(Poisson Distribution,写作X Po(λ)
$%"&'#(
354
)!*+",$
27.3. 概率分布
!"#
泊松分布是法国数学家Sim
´
eon-Denis Poisson1837年首次公开的一种离散型概率分布,它适
合于刻画单位时间(或单位空位产品)上随机事件发生的次数(计数过程)比如󰔁一服务
设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故
障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区细菌分布的数目等
定义27.23 (均匀分布). 如果随机变量X的概率密度函数为
f(x; a, b)=
1
ba
,a<x<b,
0,else.
(27.10)
则称X服从区间(a, b)上的均均匀匀分分布布(Uniform Distribution,写作X U(a, b)
定义27.24 (指数分布). 如果随机变量X的概率密度函数为
f(x; λ)=
λe
λx
,x 0,
0,x<0.
(27.11)
则称X服从指指数数分分布布(Exponential Distribution,写作X Exp(λ)λ > 0为率参数(Rate Parame-
ter,表示在单位时间间隔随机事件发生的次数
定理27.4 (指数分布的无记忆性). 如果X E(λ),则对任意的s, t > 0,都有
P (X>s+ t|X>s)=P (X>t). (27.12)
定义27.25 (正态分布). 如果随机变量X的概率密度函数为
f(x; µ, σ)=
1
2πσ
exp{
(x µ)
2
2σ
2
},x (−∞, ) (27.13)
则称X服从正正态态分分布布(Normal Distribution), Gaussian Distribution)或钟
布布布 Bell Distribution), X N(µ, σ
2
),参数µ, σ 分别表示变量的均值与标准差µ =0
σ =1时,X服从标标准准正正态态分分布N(0, 1)
推论27.1. 如果随机变量X N(µ, σ),则随机变量Z =
Xµ
σ
N(0, 1)
证明: 根据连续变量分布函数的定义,对于任意的z RZ的分布函数可表示如下:
F (z)=P (Z z)=P (
X µ
σ
z)=P (X µ + zσ)=
>
µ+zσ
−∞
f(x; µ, σ)dx,
展开可知
F (z)=
>
µ+zσ
−∞
1
2πσ
exp{
(x µ)
2
2σ
2
}dx =
>
z
−∞
1
2π
exp{
x
2
2
}dx,
直接求导可以得到相应的概率密度函数
f(z)=
1
2π
exp{
x
2
2
},
由此证得Z N(0, 1)
$%"&'#(
355
)!*+",$
搜索与排名 Searching and Ranking
!"#
如果随机变量X N(µ, σ),我们现在分析概率密度函数的凹凸性,对它求二次导数:
f (x; µ, σ)
x
=
1
2πσ
exp{
(x µ)
2
2σ
2
}
1
σ
2
[
(x µ)
2
σ
2
1],
由此可知f(x; µ, σ)的拐点在x = µ ± σ处,|x| + σ时,f(x; µ, σ)是凹函数,否则f(x; µ, σ)
凸函数此外,所有正态分布都遵循一个3σ则:P (|x µ| σ) = 68.27%P (|x µ| 2σ)=
95.45%P (|x µ| 3σ) = 99.7%,可以方便日常估算
定理27.5. 如果随机变量X N(µ, σ),则它的数学期望是µ
证明: 利用连续随机变量的数学期望定义可知
E(X)=
S
+
−∞
xf(x; µ, σ)dx
=
S
+
−∞
x
1
2πσ
exp{
(xµ)
2
2σ
2
}dx
=
1
2πσ
S
+
−∞
x exp{
(xµ)
2
2σ
2
}dx
=
1
2π
S
+
−∞
(x + µ)exp{
x
2
2
}dx
=
µ
2π
S
+
−∞
exp{
x
2
2
}dx.
我们利用二重积分,通过极坐标变换
x = r cos θ,
y = r sin θ,
简化计算:
E(X)
2
=
µ
2
2π
S
+
−∞
S
+
−∞
exp{
x
2
+y
2
2
}dxdy
=
µ
2
2π
S
2π
0
S
+
0
r exp{
r
2
2
}drdθ
= µ
2
[exp{
r
2
2
}
|r=0
exp{
r
2
2
}
|r=+
]
= µ
2
,
由于E(X) > 0,则E(X)=µ得证
定义27.26 (对数正态分布). 如果随机变量X的概率密度函数为
f(x; µ, σ)=
1
xσ
2π
exp{
(ln x µ)
2
2σ
2
},x>0 (27.14)
则称X服从对对数数正正态态分分布布(Logarithmic Normal Distribution), Galton Distribu-
tion,记作X LN(µ, σ
2
)
定理27.6. 如果X LogN(µ, σ
2
),则Y =lnX N (µ, σ
2
)如果σ > 0,则有
Z =(Y µ) /σ N(0, 1).
定义27.27 (伽马分布). 如果随机变量X的概率密度函数为
f(x; α, λ)=
λ
α
Γ(α)
x
α1
e
λx
x 0,
0 x<0.
(27.15)
$%"&'#(
356
)!*+",$
27.3. 概率分布
!"#
则称X服从伽伽马马分分布布(Gamma Distribution), X Ga(α, λ),其中α > 0为形形状状参参数数(Shape
Parameter), λ > 0为尺尺度度参参数数(Scale Parameter), Γ 表示如下形式的伽马函数:
Γ(α)=
>
+
0
x
α1
e
x
dx, α > 0. (27.16)
α =1时,伽马分布退化为指数分布,当α = n/2λ =1/2时,伽马分布退化为自由度为n的卡方
分布
定义27.28 (贝塔分布). 如果随机变量X的概率密度函数为
f(x; a, b)=
1
B(a,b)
x
a1
(1 x)
b1
, 0 <x<1,
0,else.
(27.17)
则称X服从贝贝塔塔分分布布(Beta Distribution), X Be(a, b),其中a, b > 0都是形状参数,B表示
如下形式的贝塔函数:
B(a, b)=
>
1
0
x
a1
(1 x)
b1
dx, a > 0,b >0. (27.18)
根据伽马函数的定义可知两者存在下面形式的关系:
B(a, b)=
Γ(a)Γ(b)
Γ(a + b)
. (27.19)
a = b =1时,贝塔分布退化为均匀分布U(0, 1)
定义27.29 (拉普拉斯分布). 如果随机变量X的概率密度函数为
f(x; η, θ)=
1
2θ
exp{
|x η|
θ
},x (−∞, ) (27.20)
则称X服从拉拉普普拉拉斯斯分分布Laplace Distribution也称双双指指数数分分布布,记作X La(η, θ)参数η, θ
别表示随机变量X 的均值与标准差
1901年,Josiah Gibbs研究力学现一新的模型:玻尔兹曼分布Boltzmann
Distribution), Gibbs分布。在对数线性模型
Log-linear Model)。
定义27.30 (玻尔兹曼分布). 在一个封闭系统中,当系统温度为T时,处于S
i
,能量为E
i
的粒子
所占比例N
i
/N
N
i
N
=
1
Z(T )
g
i
exp{
E
i
κT
} (27.21)
其中g
i
表示拥有能量E
i
的状态数目Z(T )是标准化因子,在统计力学中称配配分分函函数数(Partition
Function)))
Z(T )=
"
i
g
i
exp{
E
i
κT
} (27.22)
N表示系统中粒子总数N =
(
i
N
i
$%"&'#(
357
)!*+",$
搜索与排名 Searching and Ranking
!"#
定理27.7 (卷积公式). 假设XY 是两个相互独立的连续型随机变量,两变量的概率密度函数分别
f
X
(x)f
Y
(y),则两者之和Z = X + Y 的概率密度函数为
f
Z
(z)=
>
+
−∞
f
X
(z y)f
Y
(y)dy (27.23)
也称概率密度函数f
X
(x)f
Y
(y)的卷卷积积(Convolution,可视作移移动动平平均均的推广
定理27.8 (正态分布的可加性). 假设X N(µ
1
, σ
2
1
)Y N(µ
2
, σ
2
2
)且相互独立,Z = X + Y
N(µ
1
+ µ
2
, σ
2
1
+ σ
2
2
)
27.4 概率不等式
27.4.1. 集中不等式
集中不等式(Concentration Inequalities)刻画了一个随机变量在给定取值附近集中分布的状
比如,大数定律󰄀述了一系列独立同分布随机变量的均值在概率上趋近于它们的数学期望
变量数目逐渐增大,变量均值会集中在变量期望附近
定理27.9 (Markov不等式). 假设X是非负随机变量,存在期望E(X)对于任意的实数t>0,都有
P (X t)
E(X)
t
(27.24)
证明: 记变量
I =
1 X t
0 X<t
(27.25)
由于I X/t,两边同时取期望,则有P (X t)=E(I) E(X)/t成立
定理27.10 (Mill不等式). 假设随机变量X N(0, 1),则对任意的实数t>0,都有
P (|X| >t)
'
2
π
e
t
2
/2
t
.
证明: 根据定义则有
P (|X| >t)=
S
t
−∞
f(x)dx +
S
+
t
f(x)dx
=2
S
+
t
1
2π
e
x
2
/2
dx
R
2
π
S
+
t
x
t
e
x
2
/2
dx
=
R
2
π
e
t
2
/2
t
.
证毕
定理27.11 (Chebyshev不等式). 假设随机变量X存在期望µ = E(X)和方差σ
2
= var(X),则对任意
的实数t>0,都有
P (|X µ| t)
σ
2
t
2
(27.26)
$%"&'#(
358
)!*+",$
27.4. 概率不等式
!"#
证明: 由于(X µ)
2
是非负随机变量,由Markov不等式可知
P ((X µ)
2
t
2
)
E[(X µ)
2
]
t
2
=
σ
2
t
2
(27.27)
等价于
P (|X µ| t)
σ
2
t
2
(27.28)
若记Z =(X µ)/σ,则有
P (|Z| 2)
1
4
,P(|Z| 3)
1
9
(27.29)
Chebyshev不等式并未限定随机变量分布的具体形式,存在广泛应用
定理27.12 (Chernoff). 如果随机变量X存在矩母函数ψ则对任意的t,都有
P (X t) min
s>0
ψ(s)
e
st
.
证明: 对于任意的s>0,都有
P (X t)=P (e
sX
e
st
),
根据Markov不等式可得
P (e
sX
e
st
) e
st
E(e
sX
=
ψ(s)
e
st
.
由于s的任意性,从而可得
P (X t) min
s>0
ψ(s)
e
st
.
引理27.1 (Hoeffding法则). 假设X[a, b]上的随机变量,并且E(X)=0则对任意实数t>0
ψ(t)=E[e
tX
] e
t
2
(ba)
2
/8
(27.30)
证明: 由于e
tX
是凸函数,则由Jensen不等式可知
e
tX
b X
b a
e
ta
+
X a
b a
e
tb
(27.31)
两边同时取期望,则有
E[e
tX
]
E(b X)
b a
e
ta
+
E(X a)
b a
e
tb
(27.32)
由于E(X)=0,所以
E[e
tX
]
b
b a
e
ta
a
b a
e
tb
! e
φ(t)
(27.33)
其中,φ(t)=ln
*
b
ba
e
ta
a
ba
e
tb
+
,我们只要证明φ(t) t
2
(b a)
2
/8即可
由于
φ
(t)=
ab
be
ta
ae
tb
(e
ta
e
tb
) (27.34)
φ
′′
(t)=
(1 α)e
t(ba)
[(1 α)e
t(ba)
+ α]
×
α
[(1 α)e
t(ba)
+ α]
× (b a)
2
1
4
(b a)
2
, (27.35)
$%"&'#(
359
)!*+",$
搜索与排名 Searching and Ranking
!"#
其中,α =
a
ba
根据Taylor展开式,可知存在θ [0,t],满足
φ(t)=φ(0) + tφ
(0) +
1
2
t
2
φ
′′
(θ)
1
8
t
2
(b a)
2
(27.36)
则命题得证
定理27.13 (Hoeffding不等式). 假设X
1
,...,X
n
是相互独立的随机变量,X
i
[a
i
,b
i
],i=1,...,n
S
n
=
(
i
X
i
,对任意的ϵ > 0则有
P (|S
n
E(S
n
)| ϵ) exp
?
2ϵ
2
(
i
(b
i
a
i
)
2
@
. (27.37)
证明: 由于P (S
n
E(S
n
) ϵ)=P (e
S
m
E(S
m
)
e
ϵ
),根据Markov不等式,则有
P (e
t[S
n
E(S
n
)]
e
tϵ
)
E[e
t[S
n
E(S
n
)]
]
e
tϵ
=
E[
9
i
e
t(X
i
E(X
i
))
]
e
tϵ
(27.38)
X
1
,X
2
,...,X
n
的独立性和Hoeffding法则有
E[
9
i
e
t(X
i
E(X
i
))
]
e
tϵ
=
9
i
E[e
t(X
i
E(X
i
))
]
e
tϵ
9
i
e
t
2
(b
i
a
i
)
2
/8
e
tϵ
=
e
t
2
"
i
(b
i
a
i
)
2
/8
e
tϵ
(27.39)
只要取t =4ϵ/
(
i
(b
i
a
i
)
2
,则
P (S
m
E(S
m
) ϵ) exp
?
2ϵ
2
(
i
(b
i
a
i
)
2
@
, (27.40)
同理可证
P (S
m
E(S
m
) ≤−ϵ) exp
?
2ϵ
2
(
i
(b
i
a
i
)
2
@
, (27.41)
命题得证
Hoeffding不等式从本质上说明一组独立随机变量的均值离开其期望值的可能性以指数形式衰
减,即有
P (|
¯
X E(
¯
X)| ϵ) exp
?
2n
2
ϵ
2
(
i
(b
i
a
i
)
2
@
0(n →∞).
如果每个随机变量都有一个较小的方差,我们可以推导出更紧的概率界
引理27.2 (Azuma法则). 假设随机变量XY 满足E(X|Y )=0,且存在f和常数c使得不等
f(Y ) X f(Y )+c成立,则对任意的实数t>0都有
E(e
tX
|Y ) exp{
t
2
c
2
8
}. (27.42)
$%"&'#(
360
)!*+",$
27.4. 概率不等式
!"#
证明: 根据Hoeffding法则与条件期望的相加性,命题易证我们令a = f(Y )b = f(Y )+c,于
b a = c由于e
tX
是凸函数,则由Jensen不等式可知
e
tX
b X
b a
e
ta
+
X a
b a
e
tb
(27.43)
E(X|Y )=0和条件期望的线性相加性可得:
E(e
tX
|Y ) E
.
b X
b a
e
ta
+
a X
b a
e
tb
|Y
/
=
be
ta
ae
tb
b a
. (27.44)
之后证明与Hoeffding不等式的证明完全一致,命题得证
定义27.31 (鞅差序列). 假设X
1
,X
2
,...Y
1
,Y
2
,...是两个随机变量序列,如果对于任意i>0
Y
i
X
1
,X
2
,...,X
i
的函数,且有
E(Y
i+1
|X
1
,X
2
,...,X
i
)=0,
则称Y
1
,Y
2
,...是关于X
1
,X
2
,...的鞅鞅差差序序列
定理27.14 (Azuma不等式). 假设Y
1
,Y
2
,...是关于X
1
,X
2
,...的鞅差序列,如果对于任意的i>0,都
存在常数c
i
和关于X
1
,X
2
,...,X
i1
的随机变量Z
i
,并满足不等式Z
i
Y
i
Z
i
+ c
i
,那么对任意
ϵ > 0和正整数n都有
P (|
"
n
Y
i
| ϵ) exp
,
2ϵ
2
(
i
c
2
i
-
.
证明: 假设S
k
=
k
(
i=1
Y
i
1 k n,则对任意的实数t>0,由Markov不等式易知
P (S
n
ϵ)=P (tS
n
tϵ)
Ee
tS
n
e
tϵ
=
E(e
tS
n1
e
tY
n
)
e
tϵ
,
并且e
tS
n1
X
1
,X
2
,...,X
n1
的函数,由条件期望的性质可得
E(e
tS
n1
e
tY
n
)=E
*
e
tS
n1
E(e
tY
n
|X
1
,X
2
,...,X
n1
)
+
.
根据Azuma法则可知E(e
tY
n
|X
1
,X
2
,...,X
n1
) e
t
2
c
2
n
/8
,于是有
P (S
n
ϵ)
E(e
tS
n1
e
tY
n
)
e
tϵ
E(e
tS
n1
e
t
2
c
2
n
/8
)
e
tϵ
···
e
t
2
"
i
c
2
i
/8
e
tϵ
.
如果取t =4ϵ/
(
i
c
2
i
,可得
P (
"
i
Y
i
ϵ) exp
,
2ϵ
2
(
i
c
2
i
-
,
同理可证
P (
"
i
Y
i
≤−ϵ) exp
,
2ϵ
2
(
i
c
2
i
-
,
命题得证
$%"&'#(
361
)!*+",$
搜索与排名 Searching and Ranking
!"#
定理27.15 (McDiarmid不等式). 假设X
1
,...,X
n
X是相互独立的随机变量且存在实数c
1
,...,c
n
>
0和函数f : X
n
-→ R,使得对于任意的x
1
,...,x
i
,...,x
n
,x
i
都有
|f(x
1
,...,x
i
,...,x
n
) f(x
1
,...,x
i
,...,x
n
)| c
i
,
f(S)=f(X
1
,X
2
,...,X
n
),那么对于任意的ϵ > 0和正整数n
P (|f(S) E(f(S))| ϵ) exp
,
2ϵ
2
(
i
c
2
i
-
. (27.45)
证明: 我们记随机变量Y = f(S) E(f(S))和随机变量序列{Y
k
}
n
k=1
Y
1
= E(Y |X
1
) E(Y ),
.
.
.
Y
k
= E(Y |X
1
,X
2
,...,X
k
) E(Y |X
1
,X
2
,...,X
k1
),k=2, 3,...,n,
显然
(
k
Y
k
= E(Y |X
1
,X
2
,...,X
n
) E(Y ),E(Y )=0,而
E(Y |X
1
,X
2
,...,X
n
)=E(f(S) E(f(S))|X
1
,X
2
,...,X
n
)
= E(f(S)|X
1
,X
2
,...,X
n
) E(E(f(S))|X
1
,X
2
,...,X
n
),
由于f(S)X
1
,X
2
,...,X
n
的一个函数,E(f(S))是个标量,所以有
"
k
Y
k
= E(Y |X
1
,X
2
,...,X
n
)=f(S) E(f(S)) = Y.
此外,根据条件期望的性质可知
E(Y |X
1
,...,X
k
)=E(E(Y |X
1
,...,X
k
)|X
1
,...,X
k1
),
于是
E(Y
k
|X
1
,...,X
k1
)=E(E(Y |X
1
,X
2
,...,X
k
) E(Y |X
1
,X
2
,...,X
k1
)|X
1
,...,X
k1
)
= E(E(Y |X
1
,X
2
,...,X
k
)|X
1
,...,X
k1
)
E(E(Y |X
1
,X
2
,...,X
k1
)|X
1
,...,X
k1
)
= E(Y |X
1
,...,X
k
) E(Y |X
1
,X
2
,...,X
k1
)
=0.
所以序列Y
1
,Y
2
,...,Y
n
是关于X
1
,X
2
,...,X
n
的鞅差序列由于E(f(S))是个标量,则
Y
k
= E(Y |X
1
,...,X
k
) E(Y |X
1
,...,X
k1
)=E(f(S)|X
1
,...,X
k
) E(f(S)|X
1
,...,X
k1
),
我们定义U
k
V
k
U
k
=sup
X
E(f(S)|X
1
,...,X
k1
,X) E(f(S)|X
1
,...,X
k1
),
V
k
=inf
X
E(f(S)|X
1
,...,X
k1
,X) E(f(S)|X
1
,...,X
k1
),
$%"&'#(
362
)!*+",$
27.4. 概率不等式
!"#
可知U
k
V
k
=sup
X,X
E(f(S)|X
1
,X
2
,...,X
k1
,X) E(f(S)|X
1
,X
2
,...,X
k1
,X
) c
k
,从而有不
等式V
k
Y
k
U
k
V
k
+ c
k
,由Azuma不等式可得:
P (f(S) E(f(S)) ϵ) exp
,
2ϵ
2
(
i
c
2
i
-
,
同理可证
P (f(S) E(f(S)) ≤−ϵ) exp
,
2ϵ
2
(
i
c
2
i
-
.
证毕
如果取f(x
1
,x
2
,...,x
n
)=
(
i
x
i
,可以看出Hoeffiding不等式是McDiarmid不等式的一个特例
定理27.16 (Bennett不等式和Bernstein不等式). 假设随机变量X
1
,X
2
,...,X
n
是独立的随机变量
X
i
cE(X
i
)=0E(X
2
i
)=σ
2
i
如果记σ
2
=
(
i
σ
2
i
/n,那么对任意的实数ϵ > 0
P
*
"
i
X
i
/n ϵ
+
exp
?
nσ
2
c
2
f(
ϵc
σ
2
)
@
, (27.46)
P
*
"
i
X
i
/n ϵ
+
exp
?
nϵ
2
2σ
2
+2ϵc/3
@
. (27.47)
其中函数f(x)=(1+x ) log(1 + x) x,两个不等式分别称作Bennett不等式和Bernstein不等式
证明: 对任意实数t>0,由Markov不等式和X
1
,X
2
,...,X
n
的独立性易知:
P
*
"
i
X
i
/n ϵ
+
= P
*
e
t
"
i
X
i
e
nϵt
+
E(e
t
"
i
X
i
)
e
nϵt
=
9
i
E(e
tX
i
)
e
nϵt
. (27.48)
我们定义R上的一个连续函数g(x)
g(x)=
e
x
1 x
x
2
,x R \{0},
1
2
,x=0.
可以证明g(x)是单调递增函数,那么给定t>0,对于任意的x c都有g(tx) g(tc),即是说
e
tx
1+tx +
x
2
c
2
(e
tc
1 tc),
根据期望的线性性质,以E(X
i
)=0E(X
2
i
)=σ
2
i
可得
E(e
tX
i
) E
#
1+tX
i
+
X
2
i
c
2
(e
tc
1 tc)
$
=1+
σ
2
i
c
2
(e
tc
1 tc) e
σ
2
i
(e
tc
1tc)/c
2
,
于是
P
*
"
i
X
i
/n ϵ
+
9
i
E(e
tX
i
)
e
nϵt
9
i
e
σ
2
i
(e
tc
1tc)/c
2
e
nϵt
=
e
σ
2
(e
tc
1tc)/c
2
e
nϵt
.
如果取t = log(1 + (ϵc)/σ
2
)/c,可以证得Bennett不等式
$%"&'#(
363
)!*+",$
搜索与排名 Searching and Ranking
!"#
我们引入函数
h(x)=f(x)
3
2
x
2
x +3
,
可以证明h(x)是单调递增函数h(0) = 0,所h(x) 0,即f(x)
3
2
x
2
x+3
,于
Bernstein不等式成立
这些形式相似的概率不等式󰄀述了一组独立随机变量的均值偏离其期望的概率如果将每个随机
变量看做是󰔁个样本的分类情况,那么通过这些不等式我们可以直接推得泛化误差偏离经验误差
的概率,也是统计学习理论分析的基本思路
27.4.2. 大数定律
大数定律Law of Large Numbers)讨论随机变量和的平均值的收敛情,是数理统计学中
参数估计的理论基础中心极限定理Central Limit Theorem)是讨论随机变量序列部分和的分
布渐进收敛于正态分布的一组定理,是数理统计学中误差分析的理论基础,指出大量随机变量
近似服从正态分布的条件大数定律和中心极限定理都涉及到随机变量序列的收敛性分析,比
如大数定律涉及到依概率收敛Convergence in Probability), 依分布收敛
Convergence in Distribution)。 Limit Theorems)是概率论的重要内容和数理统
计学的基石之一
定义27.32 (依概率收敛). 假设{X
n
,n N}是一个随机变量序列,X是一个随机变量如果对任意
ϵ > 0,都有
lim
n+
P (|X
n
X| < ϵ)=1,
则称{X
n
,n N}依概概率率收收敛敛于X,记作X
n
P
−→ X
定义27.33 (几乎处处收敛). 假设{X
n
,n N}是一个随机变量序列,X是一个随机变量如果
P (lim
n+
X
n
= X)=1,
则称{X
n
,n N}几乎乎处处处处收收敛敛(Almost Surely Converge)或以以概概率1收敛敛(Converge with Probabil-
ity One)于X,记作X
n
a.s
−→ X
定义27.34 (依分布收敛). 假设{X
n
,n N}是一个随机变量序列X是一个随机变量,X
n
的分布函
数是F
n
(x)X的分布函数是F (x)如果对F (x)的任意连续点x,都有
lim
n+
F
n
(x)=F (x),n N,
1819世纪,极限定理一直是概率论研究的中心课题Bernoulli大数定律是第一个从数学上被严格证明的概率论定律,由Bernoulli
1713《推术》出,“大律” Poisson1837年给出美籍匈牙利数学家George Polya是第
使“中 理”1920人, “随走”Random Walk1921)。
理是关于nBernoulli试验的1716年法国数学家Abraham de Moivre讨论了p =1/2的情形,随后Pierre-Simon Laplace将其推广
0 <p<1的情形19世纪中叶到20世纪初,一大批著名的前苏联数学家运用严格的强有力的数学分析工具,如傅里叶变换等,
Bernoulli大数定律De Moivre-Laplace中心极限定理推广到一般随机变量序列部分和的情形
$%"&'#(
364
)!*+",$
27.4. 概率不等式
!"#
则称{F
n
(x),n N}弱弱弱 收收收 敛敛敛 F (x),记作F
n
(x)
W
−→ X,也{X
n
,n N}依依依 分分分 布布布 收收收 敛敛敛 X,记
X
n
L
−→ X
定理27.17 (Bernoulli大数定律). {X
n
,n N}是独立的两点分布随机变量序列,P (X
n
= 1) = p
P (X
n
= 0) = 1 p0 <p<1,记序列前n个随机变量的部分和
S
n
=
n
"
i=1
X
i
,
S
n
/n
P
−→ p,对任意的ϵ > 0都有
lim
n+
P (|
S
n
n
p| < ϵ)=1.
明: S
n
B(n, p),则S
n
/n的数学期望和方差都存在,且E(S
n
/n)=pvar(S
n
/n)=
p(1 p)/n根据Chebyshev不等式,对任意的ϵ > 0,都有
1 P (|
S
n
n
p| < ϵ) 1
var(S
n
/n)
ϵ
2
=1
p(1 p)
nϵ
2
,
n +时,不等式右端趋于1
lim
n+
P (|
S
n
n
p| < ϵ)= lim
n+
P (|
1
n
n
"
i=1
X
i
1
n
n
"
i=1
E(X
i
)| < ϵ)=1,
命题得证
定义27.35. {X
n
,n N}是一个随机变量序列,如果对任意的ϵ > 0,都有
lim
n+
P (|
1
n
n
"
i=1
X
i
1
n
n
"
i=1
E(X
i
)| < ϵ)=1,
则称{X
n
,n N}服从大数定律
定理27.18 (Chebyshev大数定律). {X
n
,n N}是一个独立随机变量序列,如果每个随机变
X
n
的方差存在,且有共同的上界,即var(X
n
) c,则{X
n
,n N}服从大数定律
证明: 由于{X
n
,n N}相互独立,则部分和均值方差
var(
1
n
n
"
i=1
X
i
)=
1
n
2
n
"
i=1
var(X
i
)
c
n
.
根据Chebyshev不等式,对任意的ϵ > 0都有
lim
n+
P (|
1
n
n
"
i=1
X
i
1
n
n
"
i=1
E(X
i
)| < ϵ) 1
var(
n
(
i=1
X
i
/n)
ϵ
2
1
c
nϵ
2
.
n +时,
lim
n+
P (|
1
n
n
"
i=1
X
i
1
n
n
"
i=1
E(X
i
)| < ϵ)=1,
命题得证
$%"&'#(
365
)!*+",$
搜索与排名 Searching and Ranking
!"#
Chebyshev大数定律只要求{X
n
,n N}相互独立,并不要求它们是同分布的果它们是独立同
分布,且方差有限,则{X
n
,n N}必然服从大数定律Bernoulli大数定律是Chebyshev大数定律
的一个特例此外,根据证明过程可知,只要有
1
n
2
var(
n
"
i=1
X
i
) 0( n +) ,
则大数定律就能成立这个条件称作“Markov条件”
定理27.19 (Markov大数定律). {X
n
,n N}是一个随机变量序列,那么有
lim
n+
1
n
2
var(
n
"
i=1
X
i
)=0,
{X
n
,n N}服从大数定律
证明: 利用Chebyshev不等式易证
Markov大数定律对随机变量序列{X
n
,n N}没有任何同分布、独立性、不相关的假定
Chebyshev大数定律可由Markov大数定律推得我们知道,一个随机变量的方差存在,则其
数学期望一定存在反之,如果一个随机变量的数学期望存在,则其方差不一定存在Bernoulli
数定律Markov大数定律和Chebyshev大数定律都均假定随机变量序列{X
n
,n N}的方差存在
Khintchine大数定律只是要求序列的数学期望存在
定理27.20 (Khintchine大数定律). {X
n
,n N}是一个独立同分布的随机变量序列,如果X
n
的数
学期望存在,则{X
n
,n N}服从大数定律
定理27.21 (Kolmogorov强大数定律). {X
n
,n N}是一个独立同分布的随机变量序列,E(|X
n
|) <
的充要条件是
P (lim
n+
6
6
1
n
n
"
i=1
X
i
1
n
n
"
i=1
E(X
i
)
6
6
< ϵ)=1.
27.4.3. 中心极限定理
定理27.22 (Linderberg-Levy中心极限定理). 假设{X
n
,n N}是独立同分布的随机变量序列
E(X
i
)=µvar(X
i
)=σ
2
> 0,如果记
Z
n
=
(X
1
+ X
2
+ ...+ X
n
)
σ
n
,
n →∞时,则有Z
n
N(0, 1),即是说,对任意的z R,都有
lim
n+
P (Z
n
z)=
1
2π
>
z
−∞
e
t
2
2
dt.
Linderberg-Levy中心极限定理具有广泛应用,它只假设{X
n
,n N}独立同分布方差存在
无论具体分布是什么,只要n充分大,都可以利用标准正态分布去逼近,说明了正态分布的普遍
性。
$%"&'#(
366
)!*+",$
27.4. 概率不等式
!"#
定理27.23 (De Moivre-Laplace极限定理). 假设{X
n
,n N}是独立两点分布的随机变量序列
E(X
i
)=pvar(X
i
)=pq > 0,如果记
Z
n
=
(X
1
+ X
2
+ ...+ X
n
) np
npq
,
n →∞时,则有Z
n
N(0, 1)
De Moivre-Laplace极限定理是概率论历史上第一个中心极限定理,属于Linderberg-Levy中心
极限定理的一个特例由于X
1
+ X
2
+ ...+ X
n
B(n, p),也称“二项分布的正态近似”
Linderberg-Levy中心极限定理是建立在独立同分布的假设条件下,在实际问题中随机变量序
{X
n
,n N}的独立性很常见,但是同分布的假设相对苛刻为了使极限分布是正态分布,必须
限定S
n
=
n
(
i=1
X
i
的各个加和项,使得它们在概率意义下“均匀地小”假设{X
n
,n N}是相互独立
的随机变量序列,它们具有有限的数学期望和方差:
E(X
i
)=µ
i
, var(X
i
)=σ
2
i
,i=1, 2,....
我们将随机变量部分和S
n
进行标准化处理:
Z
n
=
S
n
(µ
1
+ µ
2
+ ...+ µ
n
)
B
n
=
n
"
i=1
X
i
µ
i
B
n
.
其中B
n
= var(S
n
)如果要求Z
n
中各项“均匀地小”,即对任意的τ > 0,要求事件
A
ni
=
C
|X
i
µ
i
|
B
n
> τ
D
=
C
|X
i
µ
i
| > τB
n
D
发生的可能性小,或直接要求其概率趋于0为此,我们设定
lim
n+
P ( max
1in
|X
i
µ
i
| > τB
n
)=0.
由于
P ( max
1in
|X
i
µ
i
| > τB
n
)=P (
n
B
i=1
(|X
i
µ
i
| > τ B
n
))
n
"
i=1
P (|X
i
µ
i
| > τB
n
),
如果设各个随机变量X
i
都是连续的,并且对应密度函数是f
i
(x),则
n
(
i=1
P (|X
i
µ
i
| > τB
n
)=
n
(
i=1
S
|xµ
i
|>τB
n
f
i
(x)dx
1
τ
2
B
2
n
n
(
i=1
S
|xµ
i
|>τB
n
(x µ
i
)
2
f
i
(x)dx,
只要对任意的τ > 0,有
lim
n+
1
τ
2
B
2
n
n
"
i=1
>
|xµ
i
|>τB
n
(x µ
i
)
2
f
i
(x)dx =0, (27.49)
就可保证Z
n
各加和项“均匀地小”
$%"&'#(
367
)!*+",$
搜索与排名 Searching and Ranking
!"#
定理27.24 (Linderberg中心极限定理). {X
n
,n N}是一个独立随机变量序列如果它满
Linderberg条件(公式27.49,则对任意的z R,有
lim
n+
P (
1
B
n
n
"
i=1
(X
i
µ
i
) z)=
1
2π
>
z
−∞
e
t
2
2
dt.
可以证明,如果随机变量序列是独立同分布方差有限的序列,则它一定满足Linderberg
件,则Linderberg-Levy中心极限定理与De Moivre-Laplace极限定理都是Linderberg中心极限定理
的特例此外,一般性的Linderberg条件在实际使用时不易验证Lyapunov中心极限定理󰄁出更
容易验证的Lyapunov条件
定理27.25 (Lyapunov中心极限定理). {X
n
,n N}是一个独立随机变量序列,如果存在δ > 0,满
Lyapunov条件
lim
n+
1
B
2+δ
n
n
"
i=1
E(|X
i
µ
i
|
2+δ
)=0, (27.50)
则对任意的z R,有
lim
n+
P (
1
B
n
n
"
i=1
(X
i
µ
i
) z)=
1
2π
>
z
−∞
e
t
2
2
dt.
27.5 统计与抽样分布
前面几节属于概率论的范畴,一切计算和推理都是建立在随机变量概率分布已知的假定之上
在处理实际问题时,往往需要收集和整理复杂多样的数据,并借助一些高级的分析方法进行推断和
预测,这些就是统计学主要的工作内容
在统计问题中,我们把统计分析研究对象的全体称作总体Population),
成员称作个体Individual)。
利用抽样技术从总体中随机抽取样本Sample),
能够通过样本对总体做出比较可靠的推断,我们希望样本能够很好地代表总体,一般地会对抽样技
术󰄁出一些要求,保证样本的随机性独立性等性质
定义27.36 (统计量). 假设x
1
,x
2
,...,x
n
是取自某总体的样本,如果样本函数T = T (x
1
,x
2
,...,x
n
)
不含任何未知参数,则称T 为统统计计量量,统计量的分布称作抽抽样样分分布布(Sample Distribution)。
定义27.37 (样本均值). 假设x
1
,x
2
,...,x
n
是取自某总体的样本,其算术平均值称作称作样样本本均均值
Sample Mean,一般记作¯x,则有
¯x =
1
n
"
i
x
i
. (27.51)
定理27.26. 假设x
1
,x
2
,...,x
n
是取自某总体的样本,则样本数据与样本均值的偏差平方和最小,对
任意的α R,都有
"
i
(x
i
¯x)
2
"
i
(x
i
α)
2
.
$%"&'#(
368
)!*+",$
27.5. 统计与抽样分布
!"#
定理27.27. 假设x
1
,x
2
,...,x
n
本,(甲)N (µ, σ
2
),则样本均
¯x N(µ, σ
2
/n)(乙)布,E(x)=µ, var(x)=
σ
2
,则当n较大时,¯x的渐渐近近分分布布是N(µ, σ
2
),记作:¯x
N(0, 1)
定理27.28. 设总体X具有二阶矩,即E(X)=µvar(X)=σ
2
< +x
1
,x
2
,...,x
n
是从总体X
取的样本,¯xs
2
分别是样本均值和样本方差,则有Ex)=µvar(¯x)=σ
2
/nE(s
2
)=σ
2
定义27.38 (样本方差和标准差). 假设x
1
,x
2
,...,x
n
是取自某总体的样本,则它关于样本均值¯x的偏
差平方和
s
2
=
1
n
"
i
(x
i
¯x
i
)
2
(27.52)
称为有有偏偏样样本本方方差差(Biased Sample Variance), s称为样样本本标标准准差差(Standard Devia-
tion)。 使 Unbiased Sample
Variance)与标准差
s
2
=
1
n 1
"
i
(x
i
¯x
i
)
2
. (27.53)
如果样本x
1
,x
2
,...,x
n
是独立同分布的,并且总体X的分布函数是F (x),则样本的联合分布函
数可以表示如下:
F (x
1
,x
2
,...,x
n
)=
!
i
F (x
i
).
定义27.39 (次序统计量). 假设X
1
,X
2
,...,X
n
是取自总体X的样本X
(i)
称为样本的第i个个个 次次次 序序序
统统统 计计计 量量量 Order Statistic), i个观测值
X
(1)
=min{X
1
,X
2
,...,X
n
}称为样本的最最小小次次序序统统计计量X
(n)
= max {X
1
,X
2
,...,X
n
}称为
样本的最最大大次次序序统统计计量如果对n个样本从小到大顺次排列,样本X
i
在排列中的位置R
i
称作排名
Rank如果X
i
= X
(1)
,则有R
i
=1;如果X
i
= X
(n)
,则有R
i
= n
对于一个简单随机样本,X
1
,X
2
,...,X
n
独立同分布,次序统计量X
(1)
,X
(2)
,...,X
(n)
既不相互
独立,分布也不相同样本的排名(R
1
,R
2
,...,R
n
)是整数(1, 2,...,n)的一种排列
定理27.29 (单个次序统计量概率分布). 假设总体X的概率密度函数为f(x),分布函数为F (x)
X
1
,X
2
,...,X
n
为样本,则第i个次序统计量X
(i)
的概率密度函数为
f
i
(x)=
n!
(i 1)!(n i)!
[F (x)]
i1
[1 F (x)]
ni
f(x). (27.54)
无偏样本方差中1/(n 1)项称作Bessel校正,而n 1称作偏差平方和的自由度Degree of Freedom): ¯x确定后,由于条
#
i
(x
i
¯x)=0的约束,n个偏差x
1
¯x, . . . , x
n
¯x中只有n 1个数据可以自由变动,总有一个偏差不能自由取值
$%"&'#(
369
)!*+",$
搜索与排名 Searching and Ranking
!"#
证明: 根据定义,第i个次序统计量X
(i)
的概率分布函数
F (X
(i)
x)=P (n个样本观测值中至少有i个不大于x) (27.55)
=
n
"
k=i
.
n
k
/
P (X x)
k
(1 P (X x))
nk
(27.56)
=
n
"
k=i
.
n
k
/
F (x)
k
(1 F (x))
nk
. (27.57)
根据概率分布函数,可以确定概率密度函数
f
i
(x)=
dF (X
(i)
x)
dx
(27.58)
=
n
"
k=i
.
n
k
/
kF(x)
k1
(1 F (x))
nk
f(x) (27.59)
n
"
k=i
.
n
k
/
(n k)F (x)
k
(1 F (x))
nk1
f(x) (27.60)
=
n
"
k=i
n!
(k 1)!(n k)!
F (x)
k1
(1 F (x))
nk
f(x) (27.61)
n1
"
k=i
n!
k!(n k 1)!
F (x)
k
(1 F (x))
nk1
f(x) (27.62)
=
n!
(i 1)!(n i)!
F (x)
i1
[1 F (x)]
ni
f(x). (27.63)
定理27.30 (序偶次序统计量概率分布). 假设总体X的概率密度函数为f(x),分布函数为F (x)
X
1
,X
2
,...,X
n
为样本,则序偶次序统计量(X
(i)
,X
(j)
),i<j的联合分布概率密度函数为
f
ij
(y, z)=
n!
(i 1)!(j i 1)!(n j)!
[F (y)]
i1
[F (z) F (y)]
ji1
[1 F (z)]
nj
f(y)f(z),y z.
(27.64)
定理27.31 (次序统计量联合概率分布). 假设总体X的概率密度函数为f(x),分布函数为F (x)
X
1
,X
2
,...,X
n
为样本,则统计量(X
(1)
,X
(2)
,...,X
(n)
)的联合分布概率密度函数为
f
π
(t
1
,t
2
,...,t
n
)=n!
!
i
f(t
i
)I
t
1
t
2
...t
n
. (27.65)
定理27.32 (斯特林近似). 假设
s
n
=
1
2
log(2π)+(n +
1
2
) log n n, (27.66)
则有
lim
n→∞
|s
n
log n!| =0, (27.67)
等价于
lim
n→∞
2πn
n+
1
2
e
n
n!
=1. (27.68)
$%"&'#(
370
)!*+",$
27.6. 随机模型与抽样方法
!"#
定义27.40 (样本分位数与中位数). 假设总体X概率密度函数为f(x),分布函数为F (x),给定样
x
1
,...,x
n
,则它们的α分位数m
α
定义如下:
m
α
=
x
nα
,nα / N
+
,
1
2
[x
nα
+ x
nα+1
],nα N
+
.
(27.69)
α =0.5时,α分位数又称“中位数”
定理27.33 (α分位数渐进概率分布). 假设总体X的概率密度函数为f(x),它α分位数为x
α
f(x)x
α
处连续且f(x
α
) > 0,则当n + 时,样本的α分位数m
α
的渐进分布为
m
α
N(x
p
,
p(1 p)
n × f
2
(x
p
)
). (27.70)
特别地,对于样本中位数,当n +时近似地有
m
0.5
N(x
0.5
,
1
4n × f
2
(x
0.5
)
). (27.71)
由于很多统计推断都基于正态分布假设,以标准正态变量为基石构造出来的三个著名统计量在
实际中存在广泛应用本小节详细介绍三大抽样分布的构造
定义27.41 (卡方分布). 假设{X
i
}
n
i=1
是独立同分布于N(0, 1)的随机变量序列,则Y =
(
i
X
i
的分布称
为自由度为n的卡方分布,记为Y χ
2
(n)
定义27.42 (F 分布). 假设X
1
χ
2
(m)X
2
χ
2
(n)X
1
X
2
独立,则称Y =
X
1
/m
X
2
/n
的分布是自由度
mnF 分布,记为Y F (m, n)
定义27.43 (t分布
). 假设X
1
N(0, 1)X
2
χ
2
(n)X
1
X
2
独立,则称Y =
X
1
X
2
/n
的分布是自
由度为nt分布,记为Y t(n)
27.6 随机模型与抽样方法
对于一些复杂的统计问题,有时很难对各种统计方法进行理论分析为了评估各种方法的优劣
性,比较实用的办法是随机模拟:根据问题的要求与条件构造一系列的随机样本,用它们的样本频
率代替对应的概率作统计分析与推断,观察根据这些样本作出推断的正确性一般随机模拟方法的
优点在于计算复杂度不依赖于计算空间的维度,在计算非常高维的积分或多指标求和问题时,随机
模拟方法相比传统确定性计算方法优势明显
t分布是统计学中一类重要的分布,由英国统计学家William Gosset发现1899Gosset开始在一家酿酒厂担任酿酒化学技师,从事试
验和数据分析工作 由于Gosset接触的样本容量很小,通过大量的实验数据的积累,他发现t =
n 1(¯x µ)/s 的分布与N (0, 1)存在
细微的差异,前者比N(0, 1)尾部概率更大(厚尾)它猜测可能存在一个新的分布族,通过深入研究于1908 年以“Student”的笔名发
此项研究成果,后人为此也称t分布为“学生分布” t 分布的发现在统计学历史上具有划时代的意义,打破了正态分布一统天下的局面
$%"&'#(
371
)!*+",$
搜索与排名 Searching and Ranking
!"#
27.6.1. 蒙特卡洛方法
1946年,Stanislaw UlamJohn von NeumannNicholas Metropolis Los Alamos Scientific
Laboratory工作时发明了一种随机模拟方法:蒙特卡罗方法Monte Carlo Method
。它
以概率统计理论为基础利用(伪)随机数模拟解决计算问题的数值方法蒙特卡罗方法在金融工
程学宏观经济学生物医学计算物理学等领域都有重要应用我们下面介绍三个蒙特卡罗方法
的应用实例
27.3. 计算不规则图形的面积:将不规则图形固定在一个矩形框内,我们找来一小袋大小均匀
小麦,将其均匀地倒在矩形框内,则落在不规则图形内的麦子比例乘以矩形框的面积就是不规则图
形的面积
27.4. 估计无理数π的值:我们根据随机点在单位圆与正方形上的分布比例估计无理数π的值:
π 4 ×
矩形内随机点的数目
圆内随机点的数目
与这个示例相似,早在1777年,法Comte de Buffon就提出的一种巧妙地计算圆周率π的方
法,Buffon 投投投 针针针 实实实 验 验验 ((( Buffon’s Needle))) 使
例。
27.5. 计算定积分
S
1
0
f(x)dx随机生成n个相互独立且服从均匀分布U(0, 1)的随机数x
1
,x
2
,...,x
n
然后使用f(x)在所有随机数上的均值估算定积分:
>
1
0
f(x)dx
1
n
"
i
f(x
i
)
27.2: 不规则图形面积计算 27.3: 估计无理数π的值 27.4: 定积分计算
蒙特卡罗方法的模拟过程随机,也适合解决一些确定性问题通常,蒙特卡罗方法包括两个基
本步骤:1)利用计算机生成服从󰔁种分布的随机样本,2)对样本做统计分析当所求问题与󰔁种
随机模拟的灵感来自于博彩,蒙特卡罗即是摩洛哥一家赌场,人们还将组合计算中的一些随机模拟方法称为Las Vegas 方法
$%"&'#(
372
)!*+",$
27.6. 随机模型与抽样方法
!"#
随机事件出现的概率,或者󰔁个随机变量的期望值存在对应关系时,我们通过“模拟实验”估计随
机事件的概率,或随机变量的󰔁些数字特征,并将其作为问题的解由于蒙特卡罗方法需要生成大
量的随机数,并且绝大多数分布都可以使用均匀分布U(0, 1)构造,我们下面介绍几种生成服从均匀
分布U(0, 1)样本的方法
命题27.1 (平方取中法). 任取一个m位的整数z
0
,依次使用z
2
i1
的中间m位构造序列{z
i
}
n
i=1
,则有
x
i
= z
i
/10
m
U(0, 1),i=1, 2,...,n.
命题27.2 (倍积取中法). 任取一个m位的整数z
0
y,依次使用yz
i1
的中间m位构造序列z
i
,则有
x
i
= z
i
/10
m
U(0, 1),i=1, 2,...,n.
命题27.3 (一阶线性同余法). 指定m = 999563y = 47001和初值z
0
= 671800,根据
z
i
= yz
i1
(mod m)
构造序列{z
i
}
n
i=1
,则有
x
i
= z
i
/m U (0, 1),i=1, 2,...,n.
命题27.4 (一阶混合同余法). 指定m = 999563w = 1234y = 47001 和初值z
0
= 671800,根据
z
i
= w + yz
i1
(mo d m)
构造序列{z
i
}
n
i=1
,则有
x
i
= z
i
/m U (0, 1),i=1, 2,...,n.
命题27.5 (S阶混合同余法). 指定m, w, y
1
,y
2
,...,y
s
z
s+1
,z
s+2
,...,z
0
,根据
z
i
= w +
s
"
k=1
y
k
z
ik
(mo d m)
构造序列{z
i
}
n
i=1
,则有
x
i
= z
i
/m U (0, 1),i=1, 2,...,n.
随机数的生成方法具有重要用途,比如我们可以利用U(0, 1)上的随机数间接地生成服从其他
分布的随机数
假设离散随机变量X的分布列是P (X = x
i
)=p
i
,i=1, 2,...,n它的分布函数为
F (x)=
0,x<x
1
,
p
1
,x
1
x<x
2
,
p
1
+ p
2
,x
2
x<x
3
,
··· ···
k
(
i=1
p
i
,x
k
x<x
k+1
,
··· ···
1,x
n
x.
(27.72)
$%"&'#(
373
)!*+",$
搜索与排名 Searching and Ranking
!"#
我们生成一个U(0, 1)上的随机数u,如果0 u<F(x
1
),则随机数为x = x
1
。如F (x
k1
)
k<F(x
k
),则随机数为x = x
k
定理27.34 (反函数法). 假设随机变量X U(0, 1)F (z)是一个连续分布函数且存在反函数,则随
机变量Z = F
1
(X)的分布函数为F (z)
性质27.8. 假设随机变量X U(0, 1),对任意的a, b R,只要a<b,则有
Z
=
a
+(
b
a
)
X
U
(
a, b
)
.
性质27.9. 假设随机变量X U(0, 1),对任意的λ,k >0都有
Z =
#
1
λ
ln(1 X)
$
1/k
服从参数为λ,kWeibull分布W (λ,k)
,即
f(x; λ,k)=
k
λ
(
x
λ
)
k1
exp{(
x
λ
)
k
},x 0,
0, x<0.
(27.73)
k =1时,Z Exp(1/λ)
定理27.35 (Box-Muller方法). 假设X
1
U(0, 1),X
2
U(0, 1),且X
1
,X
2
相互独立,则变量
Z
1
=(2lnX
1
)
1/2
cos(2πX
2
)
和变量
Z
2
=(2lnX
1
)
1/2
sin(2πX
2
)
相互独立,并且都服从标准正态分布N(0, 1)
定理27.36. 假设X
1
,X
2
,...,X
n
n个独立同分布于U(0, 1)的随机变量,则有E(X
i
)=1/2var(X
i
)=
1/12。由Linderberg-Levy中心极限定理知,当n →∞时,
Y =
(
i
X
i
n/2
)
n/12
N(0, 1). (27.74)
n = 12时,Y =
(
i
X
i
6近似服从N(0, 1)
利用Box-Muller方法或者中心极限定理,我们可以在均匀分布的基础上构造出标准正态分布,
进而构造出一般正态分布三大抽样分布等,从而可以生成相应分布下的随机数为了能够处理特
别高维的概率分布随机抽样,󰄁高随机抽样的效率问题,人们开始研究高级的随机模拟技术
1927年,法国数学家Maurice Fr
´
echet[350]最先给出此分布的定义1933Paul RosinErich Rammler[351]首次将其应用到碎末尺寸
分布的研究1951年,瑞典数学家和工程师Waloddi Weibull[352]对其进行详细解释Weibull分布比对数正态分布具有更大的适用性,它
是可靠性分析及轴承寿命检验的理论基础,被广泛应用于各种滚动轴承的寿命试验及高应力水平下的材料疲劳试验
$%"&'#(
374
)!*+",$
27.7. 参数估计
!"#
27.6.2. 马尔科夫链蒙特卡罗法
1953年,Nicholas Metropolis等人[340] 󰄁出一种新的随机模拟方法马尔科夫蒙特卡罗法
Markov Chain Monte CarloMCMC(也称动态蒙特卡罗方法), 70年代Keith Hastings[353]
其扩展为更一般的形式,称为Metropolis-Hastings算法 Metropolis-Hastings 算法是MCMC
基础方法,并陆续演化出许多新的抽样方法,比如目前在MCMC 方法中最常用的Gibbs抽样
2009年,斯坦福大学统计学教授Persi Diaconis[ 354]使用MCMC 方法成功破解犯人密码
1984年,Stuart GemanDonald Geman[355]两兄弟󰄁出一种新的抽样方法:Gibbs 抽样,它
Metropolis-Hastings算法的一个特例(α =1用于抽取服从多元分布的样本
27.7 参数估计
人口普查中心要确定全国人口的身高分布,它不可能去统计全国所有人口的身高,只能做出一
个模型假设,利用一定的采样数据评估模型的参数比如,假设人口身高服从正态分布,人口普查
中心只要从不同地区采样统计一部分人口的身高数据,然后通过各种统计方法估计人口正态分布
的均值和方差两个参数一般地,参数估计的形式有两种:点估计区间估计前者给出一个具体
的数值,后者是给出未知参数的一个区间,可以反映参数估计结果的精度我们首先介绍三种常用
估计法:最大似然估计Maximum Likelihood EstimateMLE)、 贝叶斯估计Bayesian
Estimate)和最大后验估计Maximum a Posteriori EstimateMAP,再介绍区间估计的内容
27.7.1. 最大似然估计
最大似然估计最早由高斯󰄁出,1912Fisher再次󰄁出,并证明了此方法的一些性质它󰄁供
了一种给定观测数据评估模型参数的方法,即在模型确定的条件下,估计模型的参数最大似然估
计假设所有观测数据X = {x
1
,...,x
n
}独立同分布于含参总体分布p(x; θ),并称它们的联合概率
p(X; θ)=p(x
1
,x
2
,...,x
n
; θ)=
!
i
p(x
i
; θ)
似然函数。最θ不作任何假设,直接从参数空间搜索一个可以使似然函数最大
化的最优值,记作
ˆ
θ
MLE
ˆ
θ
MLE
= arg m ax
θ
p(X; θ) = arg max
θ
!
i
p(x
i
; θ). (27.75)
由于连乘形式的似然函数不容易直接优化,通常对其应用对数变换转换为加和形式根据对数函数
的单调性可知,最大化似然函数等价于最大化对数似然函数,则有:
ˆ
θ
MLE
= arg m ax
θ
log p(X; θ) = arg max
θ
"
i
log p(x
i
; θ). (27.76)
$%"&'#(
375
)!*+",$
搜索与排名 Searching and Ranking
!"#
27.5: 圆周率π值前1,000万位小数连续数字串加和分布图
27.6 (序例27.2). 在观察圆周率π的单个数字的分布状况以后,我们进而考察连续数字串的特征
对小数点后的连续的数字串加和,分析不同长度数字串数字加和的分布,如图27.5 所示,数字串长
度从左至右分别是304050,呈现出明显的正态分布特征,横轴是数字串的和,纵轴对应加和出
现的频次如果记数字串加和频次统计数据为{(x
i
,n
i
),i N},我们利用这些统计数,确定正
态分布参数的最大似然估计假设X N (µ, σ),使用固定长度的数字串观测数据建立对数似然函
L(x
1
,x
2
,...; µ, σ) = log
9
i
#
1
2πσ
exp
,
(x
i
µ)
2
2σ
2
-$
n
i
=
(
i
n
i
#
log
1
2πσ
(x
i
µ)
2
2σ
2
$
=(log
2π log σ)
(
i
n
i
1
2σ
2
(
i
n
i
(x
i
µ)
2
,
从而可以确定参数µσ的最大似然估计ˆµ
MLE
ˆσ
MLE
,则有
ˆµ
MLE
=
"
i
ω
i
x
i
, ˆσ
MLE
=
Q
"
i
ω
i
(x
i
ˆµ
MLE
)
2
, ω
i
=
n
i
(
i
n
i
,
"
i
ω
i
=1,
所以ˆµ
30
MLE
= 136ˆσ
30
MLE
= 15.72ˆµ
40
MLE
= 181ˆσ
40
MLE
= 18.14ˆµ
50
MLE
= 226ˆσ
50
MLE
= 20.27
27.7.2. 贝叶斯估计
在统计学中有两大学派:频率学派Frequentists也称经典学派)与贝叶斯学派Bayesians)。
频率学派认为,统计推断是根据样本信息对总体分布或总体特征进行推断,主要使用两种信息:
体信息样本信息贝叶斯学派认为,在总体信息与样本信息之外,统计推断还应该使用第三种信
息:先验信息Prior Information)。
贝叶斯学派的一个基本观点是:任意一个未知参数都可看作是随机变量,可以使用一个概率分布󰄀
述它,这种分布称作先验分布Prior Distribution)。
验分布通过贝叶斯公式结合起来,构造出关于未知参数的后验分布Posteriori Distribution),
$%"&'#(
376
)!*+",$
27.7. 参数估计
!"#
在后验分布的基础之上开展统计推断现在经典学派也已经接受这种观点[356],两派的争论焦点
聚集在如何利用先验信息合理地确定先验分布
贝叶斯学派则将未知参数θ看作随机变量,而总体依赖于参数的概率函数记作p(x|θ),它表示
给定随机变量θ的󰔁个取值,总体的条件概率函数基于这种思想,样本X = {x
1
,...,x
n
}的产生实
际上经历两个基本步骤:根据模型参数的先验分布p(θ)产生样本θ,再从条件概率分p(X|θ) 中产
生一组样本由此,样本X的联合条件概率函数表示如下:
p(X|θ)=p(x
1
,x
2
,...,x
n
|θ)=
!
i
p(x
i
|θ), (27.77)
根据贝叶斯定理,给定参数的先验分布样本的联合条件概率分布,我们可以确定后验分布:
p(θ|X)=
p(X|θ)p(θ)
p(X)
=
p(X|θ)p(θ)
S
Θ
p(X|θ)p(θ)dθ
. (27.78)
后验分布用总体和样本信息对先验分布进行调整,集中总体样本与先验知识中所有关于参
θ的信息,它比p(θ)更接近于θ的实际情况在后验分布p(θ| X)的基础上估计θ,目前存在两种最
法:后验期望估计Posteriori Mean EstimatePME)和最大后验估计 Maximum a
Posteriori EstimateMAP,统称贝叶斯估计
1. 后验期望估计:使用后验分布的均值作为θ的点估计,记作
ˆ
θ
PME
,则有
ˆ
θ
PME
= E(θ|X)=
>
Θ
θp(θ | X)dθ. (27.79)
2. 最大后验估计:使用后验分布的密度函数最大值点作为θ的点估计,记作
ˆ
θ
MAP
,则有
max
θ
p(θ|X) = max
θ
p(X|θ)p(θ)
p(X)
, (27.80)
由于p(X)不依赖于随机变量θ 忽略分母部分可得:
ˆ
θ
MAP
= arg m ax
θ
p(θ)
!
i
p(x
i
|θ) = arg max
θ
%
"
i
log p(x
i
|θ) + log p(θ )
&
. (27.81)
对比最大似然估计和最大后验估计可以发现,最大后验估计实际上是最大似然估计的规则化
模型,而其规则化项正是引入的先验概率的对数
贝叶斯估计与最大似然估计都是通过观测数据估计模型参数,但贝叶斯估计同时利用了未知参数的
先验知识如果先验分布可以准确󰄀述待估参数,则贝叶斯估计比最大似然估计更加准确此外,
最大似然估计中的p(x; θ)和最大后验估计及贝叶斯估计中的p(x|θ)形不同而义同最大似然估计的
思想源于古典学派,将未知参数θ 看作一个普通变量,则总体依赖于参数θ的概率函数记作p(x; θ )
表示参数空间Θ中不同的θ对应不同的分布大后验估计和贝叶斯估计则反映贝叶斯学派的思想,
将未知参数θ看作随机变量,而总体依赖于参数的概率函数记作p(x|θ),它表示给定随机变量θ 的󰔁
个取值,总体的条件概率函数
$%"&'#(
377
)!*+",$
搜索与排名 Searching and Ranking
!"#
从贝叶斯公式可以看出,确定先验分布是展开贝叶斯统计推断的一个基本前󰄁关于先验分布
的确定方法很多,目前最常用的一类先验分布是共轭先验分布选择共轭先验分布从数学上可以为
贝叶斯统计推断󰄁供极大的便利,这也正是隐含狄利克雷分布Latent Dirichlet Allocation, LDA
的理论基础
定义27.44 (共轭先验分布). 假设θ是总体参数,如果对任意的样本观测值X = {x
1
,...,x
n
},参
θ的后后验验分分布p(θ|X)与先先验验分分布p(θ)属于同一个分布族(Family), p(θ|X)与先验分
p(θ)是共共轭轭分分布布(Conjugate Distribution), p(θ)是关于似然函数p(X|θ)的一个共共轭轭先先验
Conjugate Prior)。
27.7. 假设事件A在一次试验中发生的概率是θ我们对试验进行n次独立观测X = {x
1
,x
2
,...,x
n
}
x
i
表示第i次试验事件A是否发生,即
x
i
=
1, 事件A发生,
0, 事件A未发生.
对于任意的i {1, 2,...,n}x
i
独立且都服从两点分布请根据观测数据确定参θ的最大似然估
ˆ
θ
MLE
最大后验估计
ˆ
θ
MAP
与后验期望估计
ˆ
θ
PME
由于p(x; θ)=θ
x
(1 θ)
1x
,构造对数似然函数
L(x
1
,x
2
,...,x
n
; θ) = log
!
i
p(x
i
; θ)=
"
i
#
x
i
log θ +(1 x
i
) log(1 θ)
$
,
对它求关于θ的导数,可以解出参数θ的最大似然估计
ˆ
θ
MLE
= arg m ax
θ(0,1)
L(x
1
,x
2
,...,x
n
; θ)=
1
n
"
i
x
i
!
z
n
. (27.82)
其中z =
(
i
x
i
表示n次试验事件A发生的次数根据贝叶斯建议的“等同无知”原则假定参数θ的先
验分布为均匀分布U(0, 1) = Be ta( 1 , 1),则有
p(θ)=
1
1 0
=1, 0 < θ < 1,
可以确定参数θ与观测数据的联合分布为
p(X, θ)=p(X|θ)p(θ)=
!
i
p(x
i
|θ)=
!
i
[θ
x
i
(1 θ)
1x
i
]=θ
z
(1 θ)
nz
.
现在我们可以直接确定最大后验估计
ˆ
θ
MAP
= arg max
θ(0,1)
p(X, θ)=
ˆ
θ
MLE
=
z
n
. (27.83)
根据贝叶斯定理,给定观测数据X = {x
1
,x
2
,...,x
n
}的条件下,我们可以确定参数θ的后验概率
p(θ|X)=
p(X, θ)
S
1
0
p(X, θ)dθ
, 1 < θ < 1.
$%"&'#(
378
)!*+",$
27.8. 假设检验
!"#
我们知道
>
1
0
θ
z
(1 θ)
nz
dθ =
Γ(z + 1)Γ(n z + 1)
Γ(z + 2)
,
从而可得后验概率
p(θ|X)=
Γ(z + 1)Γ(n z + 1)
Γ(z + 2)
θ
z
(1 θ)
nz
, 1 < θ < 1.
结果表明θ|X Beta(z +1,nz + 1),参数θ的后验期望估计为
ˆ
θ
PME
= E(θ|X)=
z +1
n +2
. (27.84)
27.7.3. 区间估计
区间估计的目标是确定两个统计量
ˆ
θ
L
=
ˆ
θ
L
(x
1
,...,x
n
) <
ˆ
θ
U
=
ˆ
θ
U
(x
1
,...,x
n
),
利用样本观测值,使θ以概率P (
ˆ
θ
L
θ
ˆ
θ
U
)落入区间[
ˆ
θ
L
,
ˆ
θ
U
]内。
ˆ
θ
U
ˆ
θ
L
越大
参数θ落入区间[
ˆ
θ
L
,
ˆ
θ
U
]的可能性就越高最理想的情景是高概率短区间:参数θ以很高的概率落
一个狭窄的区间[
ˆ
θ
L
,
ˆ
θ
U
]。为θ 落入区间[
ˆ
θ
L
,
ˆ
θ
U
]内的概率上界,并引出置信区间
Confidence Interval)的概念
定义27.45. 假设θ Θ是总体的一个参数x
1
,x
2
,...,x
n
是取自总体的n个样本,给定一个0 < α <
1,如果存在两个统计量
ˆ
θ
L
=
ˆ
θ
L
(x
1
,...,x
n
)
ˆ
θ
U
=
ˆ
θ
U
(x
1
,...,x
n
),对任意的θ Θ,都有
P
θ
(
ˆ
θ
L
θ
ˆ
θ
U
) 1 α, (27.85)
则称随机区间[
ˆ
θ
L
,
ˆ
θ
U
]θ的置置信信水水平平(Confidence Level )为1 α的置置信信区区间
ˆ
θ
L
ˆ
θ
U
分别称作θ
置信信下下限限和置置信信上上限如果对任意的θ Θ,都有
P
θ
(
ˆ
θ
L
θ
ˆ
θ
U
)=1 α, (27.86)
则称[
ˆ
θ
L
,
ˆ
θ
U
]θ1 α同等等置置信信区区间
27.8 假设检验
参数估计Parameter Estimation)和假设检验Hypothesis Testing)是统计推断的主要内
容,本节开始介绍假设检验的内容我们从下面四个例子引出假设检验问题
$%"&'#(
379
)!*+",$
搜索与排名 Searching and Ranking
!"#
27.8. 某药品生产车间用粉剂定量自动包装机包装粉剂药品,每袋标准重量为50 mg长期实践表
明该设备包装的这一药品重量服从正态分布,且标准差为1.5 mg。现
9袋,精确秤得它们的重量分别为
49.5, 50.6, 51.8, 52.1, 49.3, 51.1, 52.0, 51.5, 50. 0
它们的平均值为50.9 mg,那么当日该包装机是否正常工作?
27.9. 某工厂生产的合金强度服从正态分布N(θ, 16),其中θ 的设计值不低于110 Pa。为
该厂每天对生产情况做例行检查,以判断生产是否正常进行某天从生产中随机抽取25块合金,测
得强度值为x
1
,...,x
2
5,其均值为¯x = 108 Pa,问当日生产是否正常?
27.10. 假设总体X N (θ, σ
2
)σ
2
已知,而θ只能取两个值θ
0
或者θ
1
并且θ
0
< θ
1
,现从总体X
抽取的容量为n的样本x
1
,x
2
,...,x
n
,那么总体的均值是θ
0
还是θ
1
27.11. 0.1 ml受细菌污染的牛奶均匀涂在1 cm
2
的切片上,用显微镜观察切片每个小网格内的细
菌菌落数目根据40020×20个小网格的计数结果,统计出如表27.1所示试问菌落数是否服从
泊松分布?
27.1: 污染牛奶切片菌落统计表
菌落数 0 1 2 3 4 5 6 7 8 9 10 19
频数 56 104 80 62 42 27 9 9 5 3 2 1
假设检验是一种根据简单随机抽样抽取的样本信息来判别总体是否具有󰔁种性质的统计推断
方法两个例子代表两类假设检验问题,分别属于参数和非参数假设检验问题参数假设检验在已
知总体分布函数类型的前󰄁下,对分布函数的未知参数󰄁出󰔁种假设,然后利用样本信息对所󰄁假
设进行检验,根据检验结果作出接受或者拒绝所󰄁假设的判断非参数假设检验是在总体分布函数
类型未知的条件下,根据样本信息对分布类型的假设进行检验,从而对总体分布类型作出判断
节重点在参数假设检验(例27.827.927.10,下一节通过例27.11具体介绍非参数假设检验
27.8.1. 参数假设检验
一般地,假设检验包含五个主要步骤:建立假设选择检验统计量并给出拒绝域形式选择显
著性水平给出拒绝域作出判断
Step 1. 建立假设:假设检验需要把一个被检验的假设称原假设Null Hypothesis), H
0
通常,原假设无法轻易否定H
0
被拒绝时而接受的假设称作备择假设Alternative
Hypothesis), H
1
。两H
0
H
1
成对出现在例27.8中,
$%"&'#(
380
)!*+",$
27.8. 假设检验
!"#
量服从正态分布N(θ, σ
2
),我们已知参σ =1. 5,对于判断机器包装重量的均值是否等
θ
0
= 50 mg,可以建立如下两个假设:
H
0
: θ Θ
0
= {θ : θ = θ
0
} vs H
1
: θ Θ
1
= {θ : θ ̸= θ
0
}.
这种形式的参数假设检验称作双侧检验Two-sided Testing,还有一种形式的假设检验称
单侧检验One-sided Testing):
H
0
: θ Θ
0
= {θ : θ θ
0
} vs H
1
: θ Θ
1
= {θ : θ < θ
0
},
或者
H
0
: θ Θ
0
= {θ : θ θ
0
} vs H
1
: θ Θ
1
= {θ : θ > θ
0
}.
Step 2. 选择检验统计量,给出拒绝域形式:根据样本数据对原假设进行判断总是通过一个统计量
来完成,这个统计量称作检验统计量。通T (x
1
,x
2
,...,x
n
)也是一个充分统
计量。在拒绝域Rejection Region),
它是样本空间的一个子集,记作W。一
如果是单侧检验,则拒绝域是一个连续的样本空间子集:
W = {(x
1
,x
2
,...,x
n
):T (x
1
,x
2
,...,x
n
; θ) τ }
或者
W = {(x
1
,x
2
,...,x
n
):T (x
1
,x
2
,...,x
n
; θ) τ }.
如果是双侧检验,则拒绝域由两个不相交的连续样本空间子集构成:
W = {(x
1
,x
2
,...,x
n
):|T (x
1
,x
2
,...,x
n
; θ)| τ }.
当拒绝域确定后,检验的判断准则也相应地确定如果(x
1
,x
2
,...,x
n
) W ,则认为H
0
成立,拒绝原假设;如果(x
1
,x
2
,...,x
n
) A,则认H
0
成立,接受原假设,A称作接受域
Acceptance Region)。 27.8所示的假设检验属于双侧检验,由于¯x N(µ, σ
2
/n),我们
选择统计量
T (x
1
,x
2
,...,x
n
; θ)=
¯x µ
0
σ/
n
,
并构造双侧拒绝域
Step 3. 选择显著性水平:由于抽样的随机性和小概率事件的发生,假设检验可能犯下两类错
第一类错误(Type I Error)是H
0
为真,但是样本观测值落在拒绝域内,从而拒绝原假
H
0
,其发生的概率称作拒真概率,记作α,即
α = P (拒绝H
0
|H
0
为真).
$%"&'#(
381
)!*+",$
搜索与排名 Searching and Ranking
!"#
第二类错误(Type II Error)是H
1
为真,但是样本观测值落在接受域内,从而接受原假
H
0
,其发生的概率称作纳伪概率,记作β,即
β = P (接受H
0
|H
1
为真).
一般地,拒真概率越小,则纳伪概率越大;反之,拒真概率越大,纳伪就概越小为了
平衡两种错误,统计学家Jerzy NeymanEgon Pearson󰄁检验本原则:
在控制出现第一类错误α的条件下,寻求使出现第二类错误β尽可能小的检验α也称显著
性水平Significance Level通常取值{0.01, 0.05, 0.10}1α称作置信水平Confidence
Level), 1 β称作检验效能Power of Testing)。
Step 4. 给出拒绝域:在确定显著性水平后,我们可以确定出检验的拒绝W。对27.8,如果
α =0.05,则拒绝域
W = {(x
1
,x
2
,...,x
n
):|
¯x θ
0
σ
n
| Φ
1
(α/2)} = {(x
1
,x
2
,...,x
n
):|
¯x θ
0
σ/
n
| 1.96}.
Step 5. 作出判断:由于¯x = 50.9,则
¯x θ
0
σ/
n
=
50.9 50
1.5/3
=1.8 < 1.96
接受原假设H
0
27.8.2. 非参数假设检验
定义27.46 (经验分布函数). X
1
,X
2
,...,X
n
是来自总体X的样本,x
1
,x
2
,...,x
n
是对应观察值,
它们按照观察值的大小递增顺序排列生成x
(1)
x
(2)
··· x
(n)
,构造函数:
F
n
(x)=
0,x<x
(1)
,
k
n
,x
(k)
x<x
(k+1)
,k =2, 3,...,n1,
1,x x
(n)
.
则称F
n
(x)是总体X的经经验验分分布布函函数数(Empirical Distribution Function)。 X的分布函
F (x)称作理理论论分分布布函函数数(Theoretical Distribution Function)。
20世纪30年代,前苏联统计学家Valery Ivanovich Glivenko与意大利数学家Francesco Paolo
Cantelli证明了一个极限定理,并成为统计学基础理论一个重要的结论
定理27.37 (Glivenko-Cantelli定理). x
1
,x
2
,...,x
n
是取自总体分布函数为F (x)的样本F
n
(x)
其经验分布函数,当n +时,
P { sup
−∞<x<+
|F
n
(x) F (x)| 0} =1.
$%"&'#(
382
)!*+",$
27.8. 假设检验
!"#
Glivenko-Cantelli定理表明,当n充分大时,经验分布函数是总体分布函数F (x)的一个良好的
近似经典统计学中一切统计推断都以样本为依据,其理由就在于此我们可以利用Glivenko-
Cantelli定理进行非参数假设检验:设总体X的分布函数为F (x),对一个给定的分布F
0
(x),考虑原
假设H
0
: F (x)=F
0
(x),根据Glivenko-Cantelli理:当样本n充分大时,样本的经验分布函
F
n
(x)是总体X分布函数F (x)的一个很好的近似当原假设H
0
为真时,F
n
(x)F
0
(x)之间的差应
该是一个小量
定理27.38. 设总体X的分布函数F (x)连续X
1
,X
2
,...,X
n
是来自总体X的样则对任意的分布
函数F
0
(x),如果H
0
: F (x)=F
0
(x)成立,必然有
lim
n+
P (D
(n)
<
λ
n
)=K(λ), (27.87)
其中,D
(n)
称作Kolmogorov统计计量
D
(n)
=sup
−∞<x<+
|F
n
(x) F
0
(x)| = max
1in
,
|
i
n
F
0
(x
(i)
|, |
i 1
n
F
0
(x
(i)
|
-
(27.88)
是经验分布函数F
n
(x)F
0
(x)的最大间隔,满足分分布布无无关关性K(λ)Kolmogorov分布密度函数
K(λ)=
+
(
k=−∞
(1)
k
e
2k
2
λ
2
, λ > 0,
0, λ 0.
(27.89)
定义27.47 (KolmogorovSimrnov检验). 设总体X的分布函数F (x)连续,X
1
,X
2
,...,X
n
是来自总
X的样本,则对任意的分布函数F
0
(x),考虑原假设H
0
: F (x)=F
0
(x),在显著性水平α下的拒绝
域形式为:
W = {(x
1
,x
2
,...,x
n
):D
(n)
D
(n)
1α
}.
其中P (D
(n)
D
(n)
1α
)=α,并且D
(n)
0.99
1.63/
nD
(n)
0.95
1.36/
nD
(n)
0.9
1.23/
n
27.8.3. 显著性检验
为了衡量模型之间是否存在显著性的差异,有两种办法:其一,直接比较数值差异,其二是确
定这种差异是否具有统计显著性(Statistical Significance)。
显著性差异,比如[357]通过在多个数据集上分析基准排序学习算法发现,排序学习模型尽管相比
最佳特征具有显著的数值差异,经过统计分析,这种差异不具有统计学意义
假设存在两个系统AB,在n次试验相应的分别得到两组试验结
X =(x
1
,...,x
n
),Y =(y
1
,...,y
n
)。由A B 实验结果的偏差Z = X Y
Z包含了n 次试验偏差,相应的可以利用均值(µ)、 σ的置(如95%),
t分布分位数表,就可以构建偏差的置信区间(Confidence Intervalµ ± t
)
σ/n如果置信区间
含有0,则表明两个系统试验结果是没有显著性差异的[358]
$%"&'#(
383
)!*+",$
搜索与排名 Searching and Ranking
!"#
统计显著性从统计意义上保证了系统之间实验结果的差异性是真实可信的,而非仅仅出于偶
如,󰔁种疾病的治疗方案有两种:A B,如果通过AB治疗方案的病人都是100位,痊
的比例分别是100%50%,显然A 方案相比B治疗效果更为显著假设接受A方案的病人只有1个,
而接受B方案的有两个,同样的治愈率100% 50%)所反映的显著性就大打折扣再设想,如果
通过相同的治疗分组,治愈率分别是66%60%,那么二者的差异性就不是那么明显了
统计显著性具有两个基本的特点:1如果数值差异越大,则出于偶然性的可能性越低;2
根据大数定理,实验的样本越大,则观察到的差异性越能够反映真实的差异
统计检验首先假设比对组实验结果是相同的,然而从数学上估计比对组之间差异出于偶然的概
率,我们称之为p 值(p-Value), p值越大,则差异显著性就越弱,反之,比如p<0.05,则表明差
异是显著的
给定两组样本x =(x
1
,...,x
n
),y =(y
1
,...,y
n
),为了比较二者之间的差异,一般会选择比较
两组样本的样本均值,实际上样本均值的差异并不能反映整体差异
显著性差异是一种有量度的或然性评价比如说x, y两组样本在p =0.05水平上具有显著性差
异,也即两组本具著性异的性是95%,另外5%的可能性是没有差异5%的差
异是由随机误差造成的
显著性检验Significance Test), 假设检验Hypothesis Test), 法 , t
验、 F 检验和χ检验等
t检验基本步骤:
1. 计算样本差异
z =(z
1
,...,z
n
)
其中,z
i
= y
i
x
i
,i=1,...,n
2. 计算样本平均差异
¯z =
"
i
z
i
3. 计算样本标准差
s
z
=
Q
1
n 1
"
i
(z
i
¯z)
2
4. 计算统计量t
t =
¯z
s
z
/
n
5. 根据样本大小np值(通常取p =0.05,p =0.01), t分布表:t
p
(n 1)
6. 如果|t| >t
p
(n 1),则可以断定差异显著
Cancer Guidehttp://cancerguide.org/significance.html
$%"&'#(
384
)!*+",$
27.9. Wilcoxon-Mann-Whitney检验
!"#
27.9 Wilcoxon-Mann-Whitney检验
Wilcoxon-Mann-Whitney检验 [359, 360],是一种无参检验方法,也称Mann-Whitney U检验
Wilcoxon秩和检验(Rank Sum Test(推断)两(分布)
WMW 检验的零假设(Null Hypothesis)是两组样本取自于性质相同的分布,它不是计算平均值
的差异性,而是根据两组样本名次之和,计算出U-统计量以作检验
给定随机变量X的样本数据{x
i
}
m
i=1
,随机变量Y 的样本数据{y
j
}
n
j=1
,则U-统计量定义为:
U =
1
mn
m
"
i=1
n
"
j=1
I(x
i
>y
j
) (27.90)
U-统计量实际上是对同序概率(Concordance ProbabilityP ( X>Y)的一个估计量,如果以X
Y 为坐标轴绘制ROC曲线,AUCU-统计量等价[291]
在二元分类问题中,假设x
1
,...,x
m
是分类器对正例的预测结果,y
1
,...,y
n
是对负例的预测结
将所有预测结果升序排列,我们可以根据所有正例的排名计算统计量U
U =
1
mn
#
m
"
i=1
r
i
1
2
m(m 1)
$
(27.91)
其中r
i
表示预测结果x
i
的排名在最理想的条件下,所有正例都应该得到大于负例的预测结果
从而有
U =
1
mn
#
(n + 1) + (n + 2) + ...+(n + m)
1
2
m(m 1)
$
=1, (27.92)
最不济的分类器完全预测错误,对应地有
U =
1
mn
#
(1 + 2 + ...+ m)
1
2
m(m 1)
$
=0. (27.93)
综上可知,U-统计量的取值范围在[0, 1]之间
27.10 一般加法模型
27.11 Copula函数
Copula函数是一种多元分布函数,函数变量都服从均匀分布Copula是一类重要的统计分析
方法,在分析随机变量之间的相关关系时,将随机变量的概率分布从相关性结构(Dependency
Structure)中独立出,为构建非线性多元统计模型󰄁供了一个便利的工具,可应用于金融风险
管理机器学习[361]等领域
1959年,Abe Sklar[362]首次引入Copula,将一n维概率分布函数F 分解成边际概率分
F
i
,i =1,...,n描述分布函数中相依关系的Copula C两个部分1981年,Berthold Schweiz-
erEdward Wolff[363]最早将Copula与变量之间的相关性分析联系起来,他们在概率测度背景下
的分析奠定了Copula 模型理论基础
$%"&'#(
385
)!*+",$
搜索与排名 Searching and Ranking
!"#
定义27.48 (Copula). 假设随机向量X =(X
1
,...,X
n
)的分布函数为F ,边际概率分布为F
i
,X
i
F
i
,i=1,...,n分布函数C的变量是[0, 1] 上的均匀分布函数,如果
F = C(F
1
,...,F
n
) (27.94)
则称函数C是向量XCopula
如果分布函数F 的边际分布F
i
是连续的,则F
i
(X
i
) U(0, 1),则我们可以定义C为随机向
(F
1
(X
1
),...,F
n
(X
n
))的分布函数,则有
C(u
1
,...,u
n
)=P (F
1
(X
1
) u
1
,...,F
n
(X
n
) u
n
))
= P (X
1
F
1
1
(u
1
),...,X
n
F
1
n
(u
n
))
= F (F
1
1
(u
1
),...,F
1
n
(u
n
))
(27.95)
其中F
1
i
表示边际函数F
i
的广反函数,又称“分变换”Quantile Transform),
F
1
i
(t)=inf
x
{x R |F
i
(x) t, 0 <t<1} (27.96)
由于联合分布
F (x
1
,...,x
n
)=P (X
1
x
1
,...,X
n
x
n
)
= P (F
1
(X
1
) F
1
(x
1
),...,F
n
(X
n
) F
n
(x
n
))
= C(F
1
(x
1
),...,F
n
(x
n
))
(27.97)
根据定义可知,函数C是向量XCopula
定义27.49 (高斯Copula函数). 假设Φ
R
(X
1
,...,X
n
)n元标准正态分布函数,相关系数矩阵是R
R
n×n
,由此可以构造出高斯Copula函数
C
R
(u
1
,...,u
n
)=Φ
R
(Φ
1
1
(u
1
),...,Φ
1
n
(u
n
)) (27.98)
其中,Φ
1
i
(u
1
)表示标准正态分布函数的反函数
定理27.39 (Sklar定理). 假设F F(F
1
,...,F
n
)是边际函数为F
i
,i =1,...,nn元分布函数,则存
在一个边际分布是均匀分布函数的Copula函数C F(U
1
,...,U
n
),使得
F (x
1
,...,x
n
)=C(F
1
(x
1
),...,F
n
(x
n
)) (27.99)
并且当F
i
,i=1,...,n连续时,则满足上面等式的Copula函数是唯一的
给定一个Copula函数C,边际函数F
i
,i =1,...,n,则C(F
1
(X
1
),...,F
n
(X
n
))定义了一个n
分布函数,其边际函数正是F
i
,i =1,...,n Sklar定理[362]Copula的应用󰄁供了重要的理论依
据。
$%"&'#(
386
)!*+",$
27.11. Copula函数
!"#
在实际应用中,我们可以使用Copula方法从多元统计数据中构造出多元随机变量的联合分布
假设数据集中有mn维观测数据(X
i
1
,...,X
i
n
),i=1,...,m是从联合分布F (X
1
,...,X
n
)采样取得,
边际分布F
1
,...,F
n
都连续,则相应的真实Copula分布函数的观测数据就是
(U
k
1
,...,U
k
n
)=(F
1
(X
k
1
),...,F
n
(X
k
n
)),k=1,...,m (27.100)
事实上,真实的边际函数F
i
,i=1,...,n通常是未知的,我们可以使用经验分布函数
˜
F
i
(x)=
1
m
m
"
k=1
I(X
k
i
x),i=1,...,n (27.101)
构造出伪Copula分布观测数据
(
˜
U
k
1
,...,
˜
U
k
n
)=(
˜
F
1
(X
k
1
),...,
˜
F
n
(X
k
n
)),k=1,...,m (27.102)
由此可定义经验Copula函数
˜
C(u
1
,...,u
n
)=
1
m
m
"
k=1
I(
˜
U
k
1
u
1
,...,
˜
U
k
n
u
n
) (27.103)
定理27.40 (Fr
´
echetHoeffding定理). 对于任意的Copula函数C :[0, 1]
n
-→ [0, 1],任
(u
1
,...,u
n
) [0, 1]
n
,都满足不等式
max
,
1 n +
"
i
u
i
, 0
-
C(u
1
,...,u
n
) min
,
u
1
,...,u
n
-
. (27.104)
$%"&'#(
387
)!*+",$